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王 绍 勋 

阿里 巴巴 资深 技术 专家 ，Apache Flink 
Committer， 淘 宝 花 名 “大 沙 ”。 毕 业 于 
北京 大 学 信息 科学 技术 学 院 ， 后 取得 加 
州 大 学 圣地 亚 哥 分 校 计算 机 工程 博士 学 
位 。 目 前 就 职 于 阿里 巴巴 计算 平台 事业 
部 ， 负 责 Flink SQL 引 擎 及 机 器 学 习 的 相 
关 开 发 。 加 入 阿里 巴巴 之 前 ， 在 
Facebook 开 发 分 布 式 图 存储 系统 TAO。 
曾 多 次 拜访 由 Flink 创 始 团 队 创办 的 公司 
data Artisans， 并 与 其 首席 执行 官 科 斯 塔 
斯 。 宙 马 斯 (本 书 作者 之 一 ) 以 及 首席 
技术 官 斯 蒂 芬 “ 尤 恩 有 着 广泛 的 合作 。 
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内 容 提 要 


近年 来 ， 流 处 理 变 得 越 来 越 流 行 。 作 为 高 度 创 新 的 开源 流 处 理 器 ，Flink 拥 
有 诸多 优势 ,包括 容错 性 、 高 吞吐 、 低 延迟 , 以 及 同时 支持 流 处 理 和 批 处 理 的 能 
本 书 分 为 6 章 ， 侧 重 于 介绍 Flink 的 核心 设计 理念 、 功 能 和 用 途 ， 内 容 涉及 事件 
时 间 和 处 理 时 间 、 窗 口 和 水 印 机 制 、 检 查 点 机 制 、 性 能 测评 ， 以 及 Flink 如 何 实 
现 批 处 理 。 
本 书面 向 有 兴趣 学 习 如 何 分 析 大 规模 流 数据 的 读者 。 
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近 儿 年 ,许多 人 开始 对 如 何 分 析 大 规模 系统 中 的 流 数 据 感 兴趣 ， 部 分 原因 
是 ， 在 某 些 场景 下 对 实时 数据 进行 实时 分 析 显 得 非常 有 价值 和 吸引 力 。 然 
而 ， 通 过 低 延 迟 的 应 用 程序 及 时 获得 有 用 的 信息 ， 只 是 高 性 能 流 处 理 带 来 
的 众多 好 处 之 一 。 























本 书 介绍 的 Apache Flink (以 下 简称 Flink) 作为 一 种 高 度 创新 的 开源 流 
处 理 器 ， 具 备 惊 人 的 潜力 ， 能 够 帮助 你 在 以 流 为 基础 的 各 种 计算 中 获 益 。 
Flink 不 仅 可 以 真正 实现 实时 的 容错 性 分 析 ， 还 可 以 分 析 历 史 数据 ， 并 且 极 
大 地 简化 数据 处 理 流程 。 最 让 人 惊喜 的 是 ，Flink 用 同一 种 底层 技术 来 实现 
流 处 理 和 批 处 理 。 它 拥有 完备 的 语义 和 强大 的 性 能 ， 这 使 得 应 用 程序 的 开 
发 变 得 简单 ， 其 架构 也 使 得 应 用 程序 的 维护 变 得 容易 。 


本 书 将 全 面 介绍 Flink 的 功能 ， 并 且 讲 解 常 见 的 使 用 方法 ， 包 括 如 何在 生产 
环境 中 使 用 它 。Flink 社区 由 来 自 世 界 各 地 的 开发 人 员 和 用 户 组 成 ， 整 个 社 
区 十 分 活跃 ， 并 且 成 长 迅速 。 第 一 届 Flink 专属 研讨 会 定名 为 Flink Forward， 
于 2015 年 10 月 在 德国 柏林 举行 ， 第 二 届 于 2016 年 9 月 举行 。 还 有 各 种 线 
下 聚会 在 全 球 范围 内 举行 ， 新 的 Flink 用 例 在 聚会 中 被 大 家 广泛 讨论 。 


如 何 阅读 本 书 


本 书 对 技术 人 员 和 非 技 术 人 员 都 有 帮助 。 对 于 本 书 所 讲解 的 设计 理念 和 功 
能 ， 你 并 不 需要 具备 特殊 技能 或 者 拥有 流 处 理 经 验 就 能 理解 ， 但 是 如 果 对 









































































































































大 数据 系统 有 一 定 的 了 解 ， 将 会 使 阅读 获得 更 好 的 效果 。 如 果 需 要 尝试 运 
行 本 书 中 的 示例 代码 ， 则 需要 具备 Java 或 者 Scala 的 经 验 。 本 书 会 清楚 地 
讲解 示例 背后 的 核心 概念 ， 即 使 不 懂 代 码 也 并 不 影响 阅读 。 


第 1~3 章 阐述 Flink 是 基于 哪些 需求 被 开发 出 来 的 ， 以 及 它 如 何 满足 这 些 需 
求 ， 还 会 介绍 流 处 理 架构 的 优势 ， 以 及 Flink 的 整体 设计 。 第 4 章 至 附录 对 
Flink 的 功能 进行 更 深层 的 技术 性 阐释 。 


排版 约定 
































标 表示 一 般 性 注解 。 


NS 
对 














该 图 标 表示 提示 或 建议 。 








电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 书 电 子 版 。 














为 何 





选择 Flink 


人 们 对 某 件 事 的 正确 理解 往往 来 自 基于 有 效 论 据 的 结论 。 要 获得 
这 样 的 结论 ， 最 有 效 的 方法 就 是 沿 着 事件 发 生 的 轨迹 进行 分 析 。 


许多 系统 都 会 产生 连续 的 事件 流 ， 如 行驶 中 的 汽车 发 射出 GPS 信号 ， 金 融 





交易 ， 移 动 通 信和 基站 与 繁忙 的 智能 手机 进行 信号 交换 ， 网 络 流量 ， 机 器 日 
志 ， 工 业 传 感 器 和 可 穿戴 设备 的 测量 结果 ， 等 等 。 
规模 流 数 据 ， 我 们 对 上 述 系 统 的 理解 将 会 更 清楚 、 
数据 更 真实 地 反映 了 我 们 的 生活 方式 。 
































如 有 果 能 够 高 效 地 分 析 大 
更 快速 。 简 而 言 之 ， 流 


因此 ， 我 们 自然 希望 将 数据 用 事件 流 的 方式 收集 起 来 并 加 以 处 理 。 但 直到 





目前 ， 这 并 不 是 整个 行业 的 标准 做 法 。 流 处 理 并 非 全 新 的 概念 ， 但 它 确实 


是 一 项 专业 
假设 数据 是 有 头 有 尾 的 有 限 集 。 





性 强 且 极 具 挑 战 性 的 技术 。 实 际 上 ， 企 业 常 见 的 数据 架构 仍旧 
这 个 假设 存在 的 大 部 分 原因 在 于 ， 与 有 限 





集 匹 配 的 数据 存储 及 处 理 系统 建 起 来 比较 简单 。 但 是 ， 这 样 做 无 疑 给 那些 
天 然 的 流 式 场景 人 为 地 加 了 限制 。 


我 们 渴望 按照 流 














行 各 业 中 上 





度 越 来 越 大 。 这 是 一 个 属于 物 更 











分 布 式 系统 中 ， 数 据 一 致 性 和 对 事件 发 生 顺 序 的 到 
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学 范畴 的 难题 : 在 大 型 























E 解 必然 都 是 有 限 的 。 伴 








随 着 方法 和 技术 的 演化 ， 我 们 尽 可 能 使 这 种 局 限 性 不 危及 商业 目标 和 运营 


目标 。 


在 这 样 的 背景 下 ，Apache Flink (以 下 简称 Flink) 应 运 而 生 。 作 为 在 公共 社 
区 中 诞生 的 开源 软件 ，Flink 为 大 容量 数据 提供 流 处 理 ， 并 用 同一 种 技术 实 
现 批 处 理 。 


在 Flink 的 开发 过 程 中 ， 开 发 人 员 着 眼 于 避免 其 他 流 处 理 方法 不 得 不 在 高 效 
性 或 者 易 用 性 方面 所 做 的 妥协 。 


本 书 将 讨论 流 处 理 的 一 些 六 在 好 处 ， 从 而 帮助 你 确定 以 流 为 基础 的 数据 处 
理 方法 是 否 适合 你 自己 的 商业 目标 。 流 处 理 的 一 些 数据 来 源 以 及 适用 场景 
可 能 会 让 你 感到 意外 。 此 外 ， 本 书 还 将 帮助 你 理解 Flink 的 技术 以 及 这 些 技 
术 如 何 克 服 流 处 理 面临 的 困难 。 


本 章 将 介绍 人 们 希望 通过 分 析 流 数据 获得 什么 ， 以 及 在 大 规模 流 数 据 分 析 
过 程 中 面临 的 困难 。 本 章 是 关于 Flink 的 入 门 介绍 ， 你 可 以 看 到 人 们 平常 
(包括 在 生产 环境 中 ) 是 怎么 使 用 它 的 。 


1.1 流 处 理 欠 佳 的 后 果 

谁 需要 和 流 数据 打交道 呢 ?” 首 先 映 入 脑海 的 是 从 事 传 感 器 测量 和 金融 交易 
的 工作 人 员 。 对 于 他 们 来 说 ， 流 处 理 非常 有 用 。 但 是 流 数 据 来 源 韭 常 广泛 ， 
两 个 常见 的 例子 是 ; 网 站 获得 的 能 够 反映 用 户 行为 的 点 击 流 数 据 ， 以 及 私 
有 数据 中 心 的 机 器 日 志 。 事 实 上 ， 流 数据 来 源 无 处 不 在 ， 但 是 从 连续 事件 
中 获得 数据 并 不 意味 着 可 以 在 批量 计算 中 使 用 这 些 数据 。 如 今 ， 处 理 大 规 
模 流 数据 的 新 技术 正在 改变 这 一 状况 。 

如 果 说 处 理 大 规模 流 数据 是 一 个 历史 性 难题 ， 我 们 为 什么 还 要 不 厌 其 烦 地 
尝试 打造 更 好 的 流 处 理 系统 呢 ?” 在 介绍 支持 流 处 理 的 新 架构 及 新 技术 之 前 ， 
我 们 先 来 谈 谈 不 能 很 好 地 处 理 流 数据 会 有 什么 后 果 。 


1.1.1 零售 业 和 市 场 营 销 

在 现代 零售 业 中 ， 网 站 点 击 量 就 代表 了 销量 。 网 站 获得 的 点 击 数据 可 能 是 
大 量 、 连 续 、 不 均匀 的 。 用 以 往 的 技术 很 难处 理 好 如 此 规模 的 数据 。 仅 是 
构建 批量 系统 处 理 这 些 数据 流 “就 很 有 挑战 性 : 结果 很 可 能 是 需要 一 个 庞大 


注 1: 在 本 书 中 ,，“ 数 据 流 ”是 指 由 连续 数据 组 成 的 流 ;“ 流 数据 ”是 指数 据 流 中 的 数据 。 
一 一 译 者 注 
































































































































































































































且 复 杂 的 系统 。 并 且 ， 传 统 的 做 法 还 会 带 来 数据 丢失 、 延 迟 、 错 误 的 聚合 
结果 等 问题 。 这 样 的 结果 怎 能 对 商业 领域 有 所 帮助 呢 ? 

















假设 你 正在 向 首席 执行 官 汇报 上 一 季度 的 销售 数据 ， 你 肯定 不 想 事后 因为 
使 用 了 不 准确 的 数据 而 不 得 不 向 首席 执行 官 更 正 汇报 结果 。 如 果 不 能 良好 
地 处 理 点 击 数据 ， 你 很 可 能 对 网 站 点 击 量 进 行 不 准确 的 计算 ， 这 将 导致 广 
告 投放 报价 和 业绩 数字 不 准确 。 


航空 旅客 服务 业 面临 同样 的 挑战 : 航空 公司 需要 快速 、 准 确 地 处 理 从 各 种 
渠道 获得 的 大 量 数据 。 例 如 ， 当 为 一 名 旅客 办 理 登 机 手续 时 ， 需 要 对 该 旅 
客 的 机 票 预订 数据 进行 核对 ， 还 需要 核对 行李 处 理 信 息 、 航 班 状态 信息 和 
账单 信息 。 如 果 没 有 强大 的 技术 来 支持 流 处 理 ， 这 种 规模 的 数据 是 很 难 不 
出 错 的 。 近 几 年 ， 美 国 四 大 航空 公司 中 有 三 家 都 出 现 了 大 面积 的 服务 中 断 ， 
这 几 次 故障 都 可 以 归咎 于 大 规模 实时 数据 处 理 失 败 。 


当然 ， 很 多 相关 问题 (如 怎样 避免 重复 预订 酒店 或 演唱 会 门票 )， 一 般 都 能 
够 通过 有 效 的 数据 库 操作 来 解决 ， 但 是 这 种 操作 相当 费 钱 ， 也 费 精力 。 尤 
其 当 数据 量 增加 时 ， 成 本 会 砚 升 ， 并 且 在 某 些 情况 下 ， 数 据 库 的 反应 速度 
会 变 得 特别 慢 。 由 于 缺乏 灵活 性 ， 开 发 速度 受到 影响 ， 项 目 在 庞大 又 复杂 
或 者 不 断 发 生变 化 的 系统 中 进展 缓慢 。 想 要 在 大 型 系统 中 处 理 流 数 据 ， 并 
且 在 保持 一 致 性 的 同时 有 效 地 控制 成 本 ， 难 度 非常 大 。 




















































































































幸运 的 是 ， 现 代 的 流 处 理 器 经 常 可 以 用 新 的 方式 解决 这 些 问 题 ， 这 使 得 实 
时 处 理 大 规模 数据 的 成 本 更 低 。 流 处 理 还 激发 了 新 的 尝试 ， 比 如 构建 一 个 
系统 ， 该 系统 能 够 基于 顾客 当下 购买 的 商品 实时 给 出 相关 的 建议 ， 看 看 他 
们 是 否 还 需要 买 一 些 别 的 商品 。 这 不 代表 流 处 理 器 阁 代 了 数据 库 ( 远 远 不 
能 杰 代 )， 而 是 说 在 数据 库 处 理 不 好 时 ， 流 处 理 器 提供 了 更 好 的 解决 方案 。 
这 样 做 也 使 数据 库 得 以 解脱 ， 不 用 再 参与 对 当前 业务 状态 的 实时 分 析 。 第 2 
章 在 介绍 流 处 理 架 构 时 将 对 这 一 转变 做 更 深入 的 讲解 。 


1.1.2 ” 物 联网 

物 联网 是 流 数 据 被 普遍 应 用 的 领域 。 在 物 联网 中 ， 低 延迟 的 数据 传输 和 处 
理 ， 以 及 准确 的 数据 分 析 通 常 很 关键 。 各 类 仪器 中 的 传感器 频繁 地 获得 测 
量 数据 ， 并 将 它们 以 流 的 形式 传输 至 数据 中 心 。 在 数据 中 心 内 ， 实 时 或 者 
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接近 实时 的 应 用 程序 将 更 新 显示 板 ， 运 行 机 器 学 习 模 型 ， 发 布 警告 ， 并 就 
许多 不 同 的 服务 项 目 提供 反馈 。 


交通 运输 业 也 体现 了 流 处 理 的 重要 性 。 举 例 来 说 ， 先 进 的 列车 系统 依靠 的 
是 传感器 测量 数据 ， 这 些 数据 从 轨道 传 至 列车 ， 再 从 列车 传 至 沿途 的 传 感 
器 ;与 此 同时 ， 报 告 也 被 发 送 回 控制 中 心 。 视 量 数据 包括 列车 的 速度 和 位 
置 ， 以 及 轨道 周边 的 状况 。 如 果 流 数 据 没 有 被 正确 处 理 ， 调 整 意见 和 警告 
就 不 能 相应 产生 ， 从 而 也 就 不 能 通过 对 危险 状况 做 出 反应 来 避免 事故 发 生 。 


另 一 个 例子 是 “智能 ”汽车 ， 或 称 联 网 汽车 ， 它 们 通过 移动 网 络 将 数据 传 
输 回 制造 商 。 在 有 些 国家 (北欧 国家 、 法 国 和 英国 ， 美 国 则 刚 开 始 ) ， 联 网 
汽车 甚至 可 以 将 信息 传 给 保险 公司 ， 如 果 是 赛车 ， 信 息 还 可 以 通过 射频 链 
路 传送 至 维修 站 进行 分 析 。 此 外 ， 一 些 智能 手机 应 用 程序 还 支持 数 百 万 司 
机 共享 实时 路 况 信 息 。 






































图 1-1: 许多 情况 都 需要 考虑 数据 的 时 效 性 ， 包 括 使 用 物 联网 数据 的 交通 运输 业 。 
供 数 百 万 司机 共享 的 实时 路 况 信息 依靠 的 是 对 流 数 据 及 时 地 进行 合理 和 准确 的 分 析 
(图 片 来 源 : ©2016 弗 里 德 曼 


物 联网 对 公用 事业 也 有 影响 。 相 关公 司 已 经 开始 安装 智能 计量 表 ， 以 替换 
每 个 月 需要 人 工读 数 的 旧 表 。 智 能 计量 表 可 以 定期 将 用 电量 反馈 给 公司 
(例如 每 15 分 钟 一 次 )。 有 些 公司 正在 尝试 每 30 秒 就 进行 一 次 测量 。 使 用 
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智能 计量 表 的 这 一 转变 带 来 了 大 量 的 流 数 据 ， 同 时 也 获得 了 大 量 的 潜在 收 
益 。 其 中 一 个 好 处 就 是 通过 机 器 学 习 模型 来 检测 设备 故障 或 者 窃 电 等 使 用 
异常 。 如 果 不 能 对 流 数 据 进 行 高 否 吐 、 低 延迟 和 准确 的 处 理 ， 这 些 新 的 目 
标 都 无 法 实现 。 























如 果 流 处 理 做 得 不 好 ， 其 他 物 联 网 项 目 也 会 遭 唤 。 大 型 设备 ， 比 如 风力 涡 
轮机 、 生 产 设备 和 钻井 泵 ， 都 依赖 对 传感器 测量 数据 的 分 析 来 获得 故障 警 
告 。 如 果 不 能 及 时 地 处 理 好 这 些 设 备 的 流 数据 ， 将 可 能 付出 高 郧 的 代价 ， 
甚至 导致 灾难 性 后 果 。 


1.1.3 ”电信 业 

电信 业 是 一 个 特殊 的 例子 ， 它 广泛 地 应 用 了 基于 各 种 目的 而 产生 的 路 地域 
的 事件 流 数据 。 如 果 电 信 公 司 不 能 很 好 地 处 理 流 数据 ， 就 不 能 在 某 个 移动 
通信 基站 出 现 流 量 高 峰 前 预先 将 流量 分 配给 其 他 的 基站 ， 也 不 能 在 断 电 时 
快速 做 出 反应 。 通 过 处 理 流 数据 来 进行 异常 检测 ， 如 检测 通话 中 断 或 者 设 
备 故障 ， 对 于 电信 业 来 说 至 关 重 要 。 


1.1.4 ”银行 和 金融 业 

因为 流 处 理 做 得 不 好 而 给 银行 以 及 金融 业 带 来 的 潜在 问题 是 极其 显著 的 。 
从 事 零售 业务 的 银行 不 希望 客户 交易 被 延迟 或 者 因为 错误 统计 而 造成 账户 
余额 出 错 。 曾 有 一 个 说 法 叫 作 “ 银 行家 工作 时 间 ”， 指 的 就 是 银行 需要 在 下 
午 早 早 关门 进行 结算 ， 这 样 才 能 保证 第 二 天 营业 之 前 算出 准确 的 账 。 这 种 
批量 作业 的 营业 模式 早已 消失 。 如 今 ， 交 易 和 报表 都 必须 快速 且 准 确 地 生 
成 ， 有些 新 兴 的 银行 甚至 提供 实时 的 推送 通知 ， 以 及 随时 随地 访问 手机 银 
行 的 服务 。 在 全 球 化 经 济 中 ， 能 够 提供 24 小 时 服务 变 得 越 来 越 重 要 。 
那么 ， 如 果 缺 少 能 够 灵敏 地 实时 检测 出 用 户 行为 异常 的 应 用 程序 ， 会 对 金 
融 机 构 带 来 什么 后 果 呢 ? 信用 卡其 诈 检 测 需 要 及 时 的 监控 和 反馈 。 对 异常 
登录 的 检测 能 发 现 钓 鱼 式 攻 击 ， 从 而 避免 巨大 的 损失 。 



























































在 许多 情况 下 ， 人 们 希望 用 低 延 迟 或 者 实时 的 流 处 理 来 获得 
数据 的 高 时 效 性 ， 前 提 是 流 处 理 本 身 是 准确 且 高 效 的 。 
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1.2 ”连续 事件 处 理 的 目标 


能 够 以 非常 低 的 延迟 处 理 数据 ， 这 并 不 是 流 处 理 的 唯一 优势 。 人 们 希望 流 
处 理 不 仅 做 到 低 延 迟 和 高 吞吐 ， 还 可 以 处 理 中 断 。 优 秀 的 流 处 理 技术 应 该 
能 使 系统 在 崩溃 之 后 重新 启动 ， 并 且 产 出 准确 的 结果 ， 换 句 话 说， 优秀 的 
流 处 理 技 术 可 以 容错 ， 而 且 能 保证 exactly-once 。 


与 此 同时 ， 获 得 这 种 程度 的 容错 性 所 采用 的 技术 还 需要 在 没有 数据 错误 的 
情况 下 不 产生 太 大 的 开销 。 这 种 技术 需要 能 够 基于 事件 发 生 的 时 间 (而 不 
是 随意 地 设置 处 理 间隔 ) 来 保证 按照 正确 的 顺序 跟踪 事件 。 对 于 开发 人 员 

言 ， 不 论 是 写 代 码 还 是 修正 错误 ， 系 统 都 要 容易 操作 和 维护 。 同 样 重要 
的 是 ， 系 统 生成 的 结果 需要 与 事件 实际 发 生 的 顺序 一 致 ， 比 如 能 够 处 理 乱 
序 事件 流 (一 个 很 不 幸 但 无 法 避免 的 事实 )， 以 及 能 够 准确 地 替换 流 数据 
(在 审计 或 者 调试 时 很 有 用 )。 


1.3 流 处 理 技术 的 演变 


分 开 处 理 连 续 的 实时 数据 和 有 限 批 次 的 数据 ， 可 以 使 系统 构建 工作 变 得 更 
加 简单 ， 但 是 这 种 做 法 将 管理 两 套 系 统 的 复杂 性 留 给 了 系统 用 户 : 应 用 程 
序 的 开发 团队 和 DevOps 团队 需要 自己 使 用 并 管理 这 两 套 系 统 。 
























































































































































为 了 处 理 这 种 情况 ， 有 些 用 户 开发 出 了 自己 的 流 处 理 系 统 。 在 开源 世界 里 ， 
Apache Storm 项 目 (以 下 简称 Storm) 是 流 处 理 先锋 。Storm 最 早 由 Nathan 
Marz 和 创业 公司 BackType (后 来 被 Twitter 收购 ) 的 一 个 团队 开发 ， 后 来 
才 被 Apache 软件 基金 会 接纳 。Storm 提供 了 低 延 迟 的 流 处 理 ， 但 是 它 为 实 
时 性 付出 了 一 些 代价 : 很 难 实现 高 吞吐 ， 并 且 其 正确 性 没 能 达到 通常 所 需 
的 水 平 。 换 句 话说， 它 并 不 能 保证 exactly-once;， 即便 是 它 能 够 保证 的 正确 
性 级 别 ， 甚 开销 也 相当 大 。 





















































注 2: 对 exactly-once 的 解释 ， 详 见 5.1 节 。 一 一 编者 注 
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Lambda 架构 概述 : 优势 和 局 限 性 
对 低 成 本 规模 化 的 需求 促使 人 们 开始 使 用 分 布 式 文件 系统 ， 例 如 HDFS 
和 基于 批量 数据 的 计算 系统 (MapReduce 作业 )。 但 是 这 种 系统 很 难 做 
到 低 延 迟 。 用 Storm 开发 的 实时 流 处 理 技术 可 以 帮助 解决 延迟 性 的 问 
题 ， 但 并 不 完美 。 其 中 的 一 个 原因 是 ，Storm 不 支持 exactly-once 语义 ， 
因此 不 能 保证 状态 数据 的 正确 性 ， 另 外 它 也 不 支持 基于 事件 时 间 的 处 
理 。 有 以 上 需求 的 用 户 不 得 不 在 自己 的 应 用 程序 代码 中 加 入 这 些 功能 。 


后 来 出 现 了 一 种 混合 分 析 的 方法 ， 它 将 上 述 两 个 方案 结合 起 来 ， 既 保 
证 低 延 迟 ， 又 保障 正确 性 。 这 个 方法 被 称 作 Lambda 架构 ， 它 通过 批 
量 MapReduce 作业 提供 了 虽 有 些 延 迟 但 是 结果 准确 的 计算 ， 同 时 通过 
Storm 将 最 新 数据 的 计算 结果 初步 展示 出 来 。 


Lambda 架构 是 构建 大 数据 应 用 程序 的 一 种 很 有 效 的 框架 ， 但 它 还 不 够 
好 。 举 例 来 说 ， 基 于 MapReduce 和 HDFS 的 Lambda 系统 有 一 个 长 达 
数 小 时 的 时 间 窗 口 ， 在 这 个 窗口 内 ， 由 于 实时 任务 失败 而 产生 的 不 准 
确 的 结果 会 一 直 存 在 。Lambda 架构 需要 在 两 个 不 同 的 API ( application 
programming interface， 应 用 程序 编程 接口 ) 中 对 同样 的 业务 逻辑 进行 
两 次 编程 : 一 次 为 批量 计算 的 系统 ， 一 次 为 流 式 计算 的 系统 。 针 对 同 
一 个 业务 问题 产生 了 两 个 代码 库 ， 各 有 不 同 的 漏洞 。 这 种 系统 实际 上 
非常 难 维护 。 














若 要 依靠 多 个 流 事件 来 计算 结果 ， 必 须 将 数据 从 一 个 事件 保 
留 到 下 一 个 事件 。 这 些 保存 下 来 的 数据 叫 作 计算 的 状态 。 准 
确 处 理 状 态 对 于 计算 结果 的 一 致 性 至 关 重 要 。 在 故障 或 中 断 
之 后 能 够 继续 准确 地 更 新 状态 是 容错 的 关键 。 

















在 低 延 迟 和 高 否 吐 的 流 处 理 系 统 中 维持 良好 的 容错 性 是 非常 困难 的 ， 但 是 











为 了 得 到 有 保障 的 准确 状态 ， 人 们 想 





了 一 种 替代 方法 : 将 连续 事件 中 的 


流 数据 分 割 成 一 系列 微小 的 批量 作业 。 如 果 分 割 得 足够 小 〈 即 所 谓 的 微 批 
处 理 作业 )， 计 算 就 几乎 可 以 实现 真正 的 流 处 理 。 因 为 存在 延迟 ， 所 以 不 
可 能 做 到 完全 实时 ， 但 是 每 个 简单 的 应 用 程序 都 可 以 实现 仅 有 儿 秒 其 至 儿 
亚 秒 的 延迟 。 这 就 是 在 Spark 批 处 理 引 擎 上 运行 的 Apache Spark Streaming 
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(以 下 简称 Spark Streaming) 所 使 用 的 方法 。 


更 重要 的 是 ， 使 用 微 批 处 理 方 法 ， 














可 以 实现 exactly-once 语义 ， 从 而 保障 状 


态 的 一 臻 性。 如 果 一 个 微 批 处 理 作 业 失 败 了 ， 它 可 以 重新 运行 。 这 比 连续 
的 流 处 理 方法 更 容易 。Storm Trident 是 对 Storm 的 延伸 ， 它 的 底层 流 处 理 引 
获 就 是 基于 微 批 处 理 方 法 来 进行 计算 的 ， 从 而 实现 了 exactly-once 语义 ,但 
是 在 延迟 性 方面 付出 了 很 大 的 代价 。 























然而 ， 通 过 间 欣 性 的 批 处 理 作业 来 模拟 流 处 理 ， 会 导致 开发 和 运 维 相互 交 
错 。 完 成 间歇 性 的 批 处 理 作 业 所 需 的 时 间 和 数据 到 达 的 时 间 紧 密 耦合 ， 任 





何 延迟 都 可 能 导致 不 一 致 〈 或 者 说 








错误 ) 的 结果 。 这 种 技术 的 六 在 问题 是 ， 





时 间 由 系统 中 生成 小 批量 作业 的 那 一 部 分 全 权 控 制 。Spark Streaming 等 一 


些 流 处 理 框架 在 一 定 程度 上 弱化 了 














这 一 弊端 ， 但 还 是 不 能 完全 避免 。 另 外 ， 





使 用 这 种 方法 的 计算 有 着 精 糕 的 用 户 体验 ， 尤 其 是 那些 对 延迟 比较 敏感 的 
作业 ， 而 且 人 们 需要 在 写 业 务 代码 时 花费 大 量 精力 来 提升 性 能 。 

为 了 实现 理想 的 功能 ， 人 们 继续 改进 已 有 的 处 理 器 〈 比 如 Storm Trident 的 
开发 初衷 就 是 试图 克服 Storm 的 局 限 性 )。 当 已 有 的 处 理 器 不 能 满足 需求 




















时 ， 产 生 的 各 种 后 果 则 必须 由 应 用 程序 开发 人 员 面 对 和 解决 。 以 微 批 处 理 
























































方法 为 例 ， 人 们 往往 期 望 根据 实际 情况 分 割 事 件数 据 ， 而 处 理 器 只 能 根据 
批量 作业 时 间 〈 恢 复 间 隔 ) 的 倍数 进行 分 割 。 当 灵活 性 和 表现 力 都 缺乏 的 
时 候 ， 开 发 速度 变 慢 ， 运 维 成 本 变 高 。 


于 是 ，Flink 出 现 了 。 这 一 数据 处 到 








器 可 以 避免 上 述 整 端 ， 并 且 拥 有 所 需 的 








诸多 功能 ， 还 能 按照 连续 事件 高 效 地 处 理 数 据 。Flink 的 一 些 功 能 如 图 1-2 


所 示 。 


与 Storm 和 Spark Streaming 类 似 ， 
用 的 功能 ， 但 是 没有 一 个 像 Flink 

















其 他 流 处 理 技术 同样 可 以 提供 一 些 有 
那样 功能 如 此 齐全 。 举 例 来 说 ，Apache 


























Samza (以 下 简称 Samza) 是 早期 的 一 个 开源 流 处 理 器 ， 它 不 仅 没 能 实现 
exactly-once 语义 ， 而 且 只 能 提供 底层 的 API;， 同样 ，Apache Apex 提供 了 
与 Flink 相同 的 一 些 功能 ， 但 不 全 面 〈 比 如 只 提供 底层 的 API， 不 支持 事件 
时 间 ， 也 不 支持 批量 计算 )。 这 些 项 目 没 有 一 个 能 和 Flink 在 开源 社区 的 规 








模 上 相提并论 。 





























Spark \ 
Streaming 














时 间 正 确 / 
语义 化 窗 




















操作 简单 / 
表现 力 好 
















在 压力 下 
保持 正确 








Flink 











图 1-2: Flink 的 一 个 优势 是 ， 它 拥有 诸多 重要 的 流 式 计算 功能 。 其 他 项 目 为 了 实现 
这 些 功 能 ， 都 不 得 不 付出 代价 。 比 如 ，Storm 实现 了 低 延 迟 ， 但 是 在 作者 撰写 本 书 
时 还 做 不 到 高 吞吐 ， 也 不 能 在 故障 发 生 时 准确 地 处 理 计算 状态 ，Spark Streaming 
通过 采用 微 批 处 理 方法 实现 了 高 吞吐 和 容错 性 ， 但 是 牺牲 了 低 延 迟 和 实时 处 理 能 力 ， 
也 不 能 使 窗口 与 自然 时 间 相 匹配 ， 并 且 表 现 力 欠 佳 


下 面 来 了 解 Flink 是 什么 ， 以 及 它 是 如 何 诞 生 的 。 


1.4 初探 Flink 


Flink 的 主页 ;在 其 顶部 展示 了 该 项 目的 理念 :“Apache Flink 是 为 分 布 式 、 高 
性 能 、 随 时 可 用 以 及 准确 的 流 处 理应 用 程序 打造 的 开源 流 处 理 框架 。”Flink 
不 仅 能 提供 同时 支持 高 吞吐 和 exactly-once 语义 的 实时 计算 ， 还 能 提供 批量 
数据 处 理 ， 这 让 许多 人 感到 吃惊 。 鱼 与 能 掌 并 非 不 可 兼 得 ，Flink 用 同一 种 
技术 实现 了 两 种 功能 。 




































































注 3: http://flink.apache.org 
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这 个 顶级 的 Apache 项 目 是 怎么 诞生 的 呢 ? Flink 起 源 于 Stratosphere 项 目 ， 
Stratosphere 是 在 2010~2014 年 由 3 所 地 处 柏林 的 大 学 和 欧洲 的 一 些 其 他 的 
大 学 共同 进行 的 研究 项 目 。 当 时 ， 这 个 项 目 已 经 吸引 了 一 个 较 大 的 社区 ， 
一 部 分 原因 是 它 出 现在 了 若干 公共 开发 者 研讨 会 上 ， 比 如 在 柏林 举办 的 
Berlin Buzzwords， 以 及 在 科隆 举办 的 NoSQL Matters， 等 等 。 强 大 的 社区 
基础 是 这 个 项 目 适合 在 Apache 软件 基金 会 中 孵化 的 一 个 原因 。 


2014 年 4 月 ，Stratosphere 的 代码 被 复制 并 捐献 给 了 Apache 软件 基金 会 ， 
参与 这 个 旷 化 项 目的 初始 成 员 均 是 Stratosphere 系统 的 核心 开发 人 员 。 不 久 
之 后 ， 创 始 团队 中 的 许多 成 员 离 开 大 学 并 创办 了 一 个 公司 来 实现 Flink 的 商 
业 化 ， 他 们 为 这 个 公司 取 名 为 data Artisans。 在 孵化 期 间 ， 为 了 避免 与 另 一 
个 不 相关 的 项 目 重 名 ,项 目的 名 称 也 发 生 了 改变 。Flink 这 个 名 字 被 挑选 出 
来 ， 以 彰显 这 种 流 处 理 器 的 独特 性 : 在 德语 中 ，flink 一 词 表示 快速 和 灵巧 。 
项 目 采 用 一 只 松鼠 的 彩色 图 案 作 为 logo， 这 不 仅 因 为 松鼠 具有 快速 和 灵巧 
的 特点 ， 还 因为 柏林 的 松鼠 有 一 种 迷人 的 红 棕色 。 





















































图 1-3: 左 侧 : 柏林 的 红 松 鼠 拥 有 可 爱 的 耳朵 ， 右 侧 ， Flink 的 松鼠 logo 拥有 可 爱 的 
尾巴 ， 尾 巴 的 颜色 与 Apache 软件 基金 会 的 logo 颜色 相 呼 应 。 这 是 一 只 Apache 风 
格 的 松鼠 ! 


这 个 项 目 很 快 完成 了 孵化 ， 并 在 2014 年 12 月 一 跃 成 为 Apache 软件 基金 会 
的 顶级 项 目 。 作 为 Apache 软件 基金 会 的 5 个 最 大 的 大 数据 项 目 之 一 ，Flink 
在 全 球 范 围 内 拥有 200 多 位 开发 人 员 ， 以 及 若干 公司 中 的 诸多 上 线 场景 ， 
有 些 甚至 是 世界 500 强 的 公司 。 在 作者 撰写 本 书 的 时 候 ， 共 有 34 个 Flink 








线 下 聚会 在 世界 各 地 举办 ， 社 区 大 约 有 12 000 名 成 员 ， 还 有 众多 Flink 演 
讲 者 参与 到 各 种 大 数据 研讨 会 中 。2015 年 10 月 ， 第 一 届 Flink Forward 研 
讨 会 在 柏林 举行 。 


批 处 理 与 流 处 理 
Flink 是 如 何 同时 实现 批 处 理 与 流 处 理 的 呢 ? 答案 是 ，Flink 将 批 处 理 ( 即 处 
理 有 限 的 静态 数据 ) 视 作 一 种 特殊 的 流 处 理 。 

















Flink 的 核心 计算 构造 是 图 1-4 中 的 Flink Runtime 执行 引擎 ， 它 是 一 个 分 
布 式 系统 ， 能 够 接受 数据 流程 序 并 在 一 台 或 多 台 机 器 上 以 容错 方式 执行 。 
Flink Runtime 执行 引擎 可 以 作为 YARN (Yet Another Resource Negotiator) 
的 应 用 程序 在 集群 上 运行 ， 也 可 以 在 Mesos 集群 上 运行 ， 还 可 以 在 单机 上 
运行 (这 对 于 调试 Flink 应 用 程序 来 说 非常 有 用 ) 。 
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DataStream API DataSet API > 
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流 处 理 批 处 理 


Flink Runtime 执 行 引擎 





核心 构造 





“容错 性 数据 流 ” 











图 1-4: Flink 技术 栈 的 核心 组 成 部 分 。 值 得 一 提 的 是 ，Flink 分 别提 供 了 面向 流 处 理 
的 接口 (DataStream API) 和 面向 批 处 理 的 接口 (DataSet API) 。 因 此 ，Flink 既 
可 以 完成 流 处 理 , 也 可 以 完成 批 处 理 。Flink 支持 的 拓展 库 涉及 机 器 学 习 (FlinkML)、 
复杂 事件 处 理 (CEP)， 以 及 图 计算 (Gelly) ， 还 有 分 别针 对 流 处 理 和 批 处 理 的 
Table API 
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能 被 Flink Runtime 执行 引擎 接受 的 程序 很 强大 ， 但 是 这 样 的 程序 有 着 元 长 
的 代码 ， 编 写 起 来 也 很 费力 。 基 于 这 个 原因 ，Flink 提供 了 封装 在 Runtime 
执行 引擎 之 上 的 API， 以 帮助 用 户 更 方便 地 生成 流 式 计算 程序 。Flink 提供 
了 用 于 流 处 理 的 DataStream API 和 用 于 批 处 理 的 DataSet API。 值 得 注意 的 
是 ， 尽 管 Flink Runtime 执行 引擎 是 基于 流 处 理 的 ， 但 是 DataSet API 先 于 
DataStream API 被 开发 出 来 ， 这 是 因为 工业 界 对 无 限 流 处 理 的 需求 在 Flink 
诞生 之 初 并 不 大 。 
































DataStream API 可 以 流畅 地 分 析 无 限 数据 流 ， 并 且 可 以 用 Java 或 者 Scala 来 
实现 。 开 发 人 员 需 要 基于 一 个 叫 DataStream 的 数据 结构 来 开发 ， 这 个 数据 
结构 用 于 表示 永 不 停止 的 分 布 式 数据 流 。 


Flink 的 分 布 式 特点 体现 在 它 能 够 在 成 百 上 千 台 机 器 上 运行 ， 它 将 大 型 的 计 
算 任务 分 成 许多 小 的 部 分 ， 每 个 机 器 执行 一 个 部 分 。Flink 能 够 自动 地 确保 
在 发 生机 器 故障 或 者 其 他 错误 时 计算 能 持续 进行 ， 或 者 在 修复 bug 或 进行 
版 本 升级 后 有 计划 地 再 执行 一 次 。 这 种 能 力 使 得 开发 人 员 不 需要 担心 失败 。 
Flink 本 质 上 使 用 容错 性 数据 流 ， 这 使 得 开发 人 员 可 以 分 析 持 续 生 成 且 永远 
不 结束 的 数据 ( 即 流 处 理 )。 








Flink 解决 了 许多 问题 ， 比 如 保证 了 exactly-once 语义 和 基于 
事件 时 间 的 数据 窗口 。 开 发 人 员 不 再 需要 在 应 用 层 解 决 相关 
问题 ， 这 大 大 地 降低 了 出 现 bug 的 概率 。 









































因为 不 用 再 在 编写 应 用 程序 代码 时 考虑 如 何 解 决 问题 ， 所 以 工程 师 的 时 间 
得 以 充分 利用 ， 整 个 团队 也 因此 受益 。 好 处 并 不 局 限于 缩短 开发 时 间 ， 随 
着 灵活 性 的 增加 ， 团 队 整 体 的 开发 质量 得 到 了 提高 ， 运 维 工作 也 变 得 更 容 
易 、 更 高 效 。Flink 让 应 用 程序 在 生产 环境 中 获得 良好 的 性 能 。 尽 管 相 对 较 
新 ， 但 是 Flink 已 经 在 生产 环境 中 得 到 了 应 用 ， 下 一 节 将 做 更 详细 的 介绍 。 


1.5 生产 环境 中 的 Flink 


本 章 旨 在 探讨 为 何 选择 Flink。 一 个 好 的 方法 是 听 听 在 生产 环境 中 使 用 Flink 
的 开发 人 员 解 释 他 们 选择 Flink 的 原因 ， 以 及 如 何 使 用 它 。 
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1.5.1 布衣 格 电信 


布衣 格 电信 (B 








ouygues Telecom) 是 法 国 第 三 大 移动 通信 运营 商 ， 隶 属 世 











界 500 强 企业 布衣 格 集团 。 布 衣 格 电信 使 用 Flink 来 进行 实时 事件 处 理 ， 每 
天 不 间断 地 分 析 数 十 亿 条 消息 。2015 年 6 月 ， 在 为 data Artisans 的 博客 撰 
写 的 文章 中 ，Mohamed Amine Abdessemed’ 描述 了 布衣 格 电 信 的 目标 以 及 
Flink 为 什么 能 实现 这 些 目 标 。 

















en 布衣 格 电信 和 最终 选择 了 Flink， 因 为 它 支 持 真正 的 流 处 理 一 一 
通过 上 层 的 API 和 下 层 的 执行 引擎 都 能 实时 进行 流 处 理 ， 这 满足 
了 我 们 对 可 编程 性 和 低 延 迟 的 需求 。 此 外 ， 使 用 Flink， 我 们 的 系 
统 得 以 快速 上 线 ， 这 是 其 他 任何 一 种 方案 都 做 不 到 的 。 如 此 一 来 ， 
我 们 就 有 了 更 多 的 人 手 开发 新 的 业务 逻辑 。 


Mohamed Amine Abdessemed 在 于 2015 年 10 月 举行 的 Flink Forward 研讨 
会 上 也 做 了 报告 。 布 衣 格 电信 试图 给 其 工程 师 实时 提供 关于 用 户 体验 的 反 
馈 ， 让 他 们 了 解 公司 遍布 全 球 的 网 络 正在 发 生 什 么 ， 并 从 网 络 的 演进 和 运 
行 的 角度 和 掌握 发 展 动向 。 


为 了 实现 这 个 目标 ， 他 们 的 团队 搭建 了 一 个 用 来 分 析 网 络 设备 日 志 的 系统 ， 
















































































它 定 义 了 衡量 


j 户 体验 质量 的 各 项 指标 。 该 系统 每 天 处 理 20 亿 次 事件 ， 要 










































































求 端 到 端 延 迟 不 超过 200 毫秒 〈 包 括 由 传输 层 负责 的 消息 发 布 和 由 Flink 操 
































作 的 数据 处 理 )。 这 些 都 在 一 个 仅 有 10 个 节点 (每 个 节点 1GB 内 存 ) 的 小 
集群 上 完成 。 布 衣 格 电信 还 希望 这 些 经 过 部 分 处 理 的 数据 能 被 复 用 ， 从 而 






























































在 互 不 干扰 的 前 提 下 满足 各 种 商业 智能 分 析 需 求 。 


该 公司 打算 利用 Flink 的 流 处 理 能 力 来 转换 和 挖掘 数据 。 加 工 后 的 数据 被 推 
送 回 消息 传输 系统 ， 以 保证 数据 可 以 被 不 同 的 用 户 使 用 。 








相 比 于 其 他 处 到 





方案 ， 比 如 在 数据 进入 消息 队列 之 前 进行 处 理 ， 或 者 将 数 

















据 分 派 给 消费 同一 个 消息 队列 的 多 个 应 用 程序 来 分 头 处 理 ，Flink 的 处 理 方 


案 更 合适 。 


























布衣 格 电 信 利用 Flink 的 流 处 理 能 力 完成 了 数据 处 理 和 数据 迁移 ， 它 既 满 足 
了 低 延 迟 的 要 求 ， 又 具有 很 高 的 可 靠 性 、 可 用 性 ， 以 及 易 用 性 。Flink 为 调 




















注 4: 他 在 布衣 格 电信 和 负责 技术 系统 。 
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试 工作 提供 了 极 大 的 便利 ， 甚 至 支持 切换 到 本 地 进行 调试 。 它 也 支持 程序 
可 视 化 ， 有 利于 理解 程序 的 运行 原理 。 此 外 ，Flink 的 API 吸引 了 很 多 开发 
人 员 和 数据 科学 家 。Mohamed Amine Abdessemed 在 其 文章 中 还 提 及 布衣 格 
电信 的 其 他 团队 使 用 Flink 解决 了 不 同 的 问题 。 


1.5.2 ”其 他 案例 

King 公 司 

King 公司 的 游戏 非常 流行 ， 全 世界 几乎 每 时 每 刻 都 有 人 在 玩 它 的 在 线 游戏 。 
作为 在 线 娱乐 行业 的 佼佼 者 ， 该 公司 称 自 己 已 经 开发 了 200 多 款 游戏 ， 市 
场 履 盖 200 多 个 国家 和 地 区 。 












































King 公司 的 工程 师 曾 在 一 篇 博客 文章 中 写 道 :“ 我 们 每 月 有 超过 3 亿 的 独立 
用 户 ,每 天 从 不 同 的 游戏 和 系统 中 收 到 300 亿 次 事件 ， 基 于 这 么 大 的 数据 
量 做 任何 流 分 析 都 是 真正 的 技术 挑战 。 因 此 ， 为 我 们 的 数据 分 析 师 开发 工 
具 来 处 理 如 此 大 规模 的 流 数 据 ， 同 时 保证 数据 在 应 用 中 具有 最 大 的 灵活 性 ， 
这 些 对 于 公司 而 言 至 关 重 要 。” 




















King 公司 用 Flink 构建 的 系统 让 其 数据 分 析 师 得 以 实时 地 获取 大 量 的 流 数 
据 。Flink 的 成 熟 度 给 他 们 留 下 了 深刻 的 印象 。 即 使 面 对 像 King 公司 这 样 
复杂 的 应 用 环境 ，Flink 也 能 很 好 地 提供 支持 。 








Zalando 公 司 
作为 欧洲 领先 的 在 线 时 尚 平台 ，Zalando 公司 在 全 球 拥 有 超过 1600 万 的 客 
户 。 该 公司 的 网 站 将 其 组 织 结构 描述 为 “多 个 敏捷 、 自 主 的 小 型 团队 ”( 换 
名 话说 ， 该 公司 采用 了 微服 务 架构 ) 。 


流 处 理 架 构 为 微服 务 提供 了 良好 的 支持 。 因 此 ，Flink 提供 的 流 处 理 能 力 满 
足 了 这 种 工作 模式 的 需求 ， 特 别 是 支持 业务 流程 监控 和 持续 的 ETL 过 程 。 
































Otto 集团 
Otto 集团 是 全 球 第 二 大 B2C (business to consumer， 企 业 对 顾客 电子 商务 ) 
在 线 零 售 商 ， 也 是 欧洲 时 尚 和 生活 领域 最 大 的 B2C 在 线 零 售 商 。 


它 的 商业 智能 部 门 在 最 初 开始 评估 开源 流 处 理 平台 时 ， 没 有 找到 一 种 能 够 


























注 $: ETL 是 Extract、Transform 和 Load 的 缩写 ， 即 抽取 、 转 换 和 加 载 。 一 一 编者 注 
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符合 其 要 求 的 平台 ， 所 以 后 来 决定 开发 自己 的 流 处 理 引 擎 。 但 是 当 试 过 
Flink 之 后 ， 该 部 门 发 现 Flink 满足 了 他 们 对 流 处 理 的 所 有 需求 ， 包 括 对 众 
包 用 户 代理 的 鉴定 ， 以 及 对 检索 事件 的 辨识 。 
































ResearchGate 
从 活跃 用 户 的 数量 上 看 ，ResearchGate 是 最 大 的 学 术 社 交 网 络 。 它 从 2014 年 
开始 使 用 Flink 作为 其 数据 基础 设施 的 一 个 主要 工具 ， 负 责 批 处 理 和 流 处 理 。 






































阿里 巴巴 集团 

阿里 巴巴 这 个 庞大 的 电子 商务 集团 为 买方 和 卖方 提供 平台 。 其 在 线 推荐 功 
能 是 通过 基于 Flink 的 系统 Blink 实现 的 。 用 户 当天 所 购买 的 商品 可 以 被 用 
作 在 线 推荐 的 依据 ， 这 是 使 用 像 Flink 这 样 真 正 意义 上 的 流 处 理 引 擎 能 够 
带 来 的 好 处 之 一 。 并 且 ， 这 在 那些 用 户 活跃 度 异 常 高 的 特殊 日 期 〈 节 假日 ) 
尤其 重要 ， 也 是 高 效 的 流 处 理 相 较 于 批 处 理 的 优势 之 一 。 


1.6 ”Flink 的 适用 场景 


本 章 开 头 提出 了 “为 何 选择 Flink” 这 一 问题 。 比 这 个 问题 更 大 的 则 是 “为 
何 要 用 流 数 据 ? ”本 章 解释 了 一 些 原因 ， 比 如 在 许多 情况 下 ， 我 们 都 需要 
观察 和 分 析 连 续 事 件 产 生 的 数据 。 与 其 说 流 数据 是 特别 的 ， 倒 不 如 说 它 是 
自然 的 一 一 只 不 过 从 前 我 们 没有 流 处 理 能 力 ， 只 能 做 一 些 特殊 的 处 理 才能 
真正 地 使 用 流 数 据 ， 比 如 将 流 数 据 攒 成 批量 数据 再 处 理 ， 不 然 无 法 进行 大 
规模 的 计算 。 使 用 流 数 据 并 不 新 鲜 ， 新 鲜 的 是 我 们 有 了 新 技术 ， 从 而 可 以 
大 规模 、 灵 活 、 自 然 和 低 成 本 地 使 用 它们 。 


Flink 并 不 是 唯一 的 流 处 理工 具 。 人 们 正在 开发 和 改进 多 种 新 兴 的 技术 ， 以 
满足 流 处 理 需 求 。 显 然 ， 任 何 一 个 团队 选择 某 一 种 技术 都 是 出 于 多 方面 的 
考虑 ， 包 括 团队 成 员 的 已 有 技能 。 但 是 Flink 的 若干 优点 、 易 用 性 ， 以 及 使 
用 它 所 带 来 的 各 种 好 处 ， 使 它 变 得 非常 有 吸引 力 。 另 外 ， 不 断 壮大 且 非 常 
活跃 的 Flink 社区 也 暗示 着 它 值得 一 试 。 你 会 发 现 “ 为 何 选 择 Flink” 这 个 
问题 变 成 了 “为 何不 选择 Flink 呢 ?” 








































































































在 深入 探讨 Flink 的 工作 原理 之 前 ， 我 们 先 来 通过 第 2 章 了 解 如 何 设计 数据 
架构 才能 从 流 处 理 中 充分 获 益 ， 以 及 流 处 理 架构 是 如 何 带 来 诸多 好 处 的 。 
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第 2 章 





流 处 理 架 构 





数据 架构 设计 领域 正在 发 生 一 场 变革 ， 其 影响 不 仅 限于 实时 或 近 实 时 的 项 
目 。 这 场 变革 将 基于 流 的 数据 处 理 流程 视 为 整个 架构 设计 的 核心 ， 而 不 是 


























只 作为 某 些 专 业 化 工作 的 基础 。 了 解 为 何 向 流 处 理 架构 转变 ， 可 以 帮助 我 





们 理解 Flink 和 它 在 现代 数据 处 理 中 所 扮演 的 角色 。 


作为 新 型 系统 ， 























数据 库 实 现 。 





事实 证 明 ， 让 Flink 能 有 效 工 作 的 数据 架构 ， 恰 恰 是 充分 利用 流 数 据 的 基 


了 
不 仅 指 实时 、 低 延迟 的 数据 分 机 ， 还 指 各 类 数据 应 用 程序 。 其 中 ， 有 些 应 
用 程序 基于 流 处 理 器 实现 ， 有 些 基 于 批 处 理 器 实现 ， 有 些 甚至 基于 事务 型 
































Flink 扩展 了 “ 流 处 理 ” 这 个 概念 的 范围 。 有 











疆 ， 流 处 理 





































































































础 。 为 了 帮助 你 理解 ， 本 书 将 详细 介绍 如 何 构建 支持 Flink 流 处 理 的 管道 。 
在 这 之 前 ， 我 们 先 来 看 看 与 传统 架构 相 比 ， 流 处 理 架 构 有 何 优 势 。 


2.1 ”传统 架构 与 流 处 理 架构 


对 于 后 端 数据 而 言 ， 典 型 的 传统 架构 是 采用 一 个 中 心 化 的 数据 库 系 统 ， 该 


系统 用 于 存储 寻 


























了 务 性 数据 。 换 句 话 说 ， 数 据 库 (SQL 或 者 NoSQL) 拥有 


“新 鲜 ”( 或 者 说 “准确 ”) 的 数据 ， 这 些 数据 反映 了 当前 的 业务 状态 ， 如 系 
统 当 前 有 多 少 已 登录 的 用 户 ， 网 站 当前 有 多 少 活跃 用 户 ， 以 及 当前 每 个 用 














户 的 账户 余额 是 多 少 。 需 要 新 鲜 数 据 的 应 用 程序 都 依靠 数据 库 实 现 。 分 布 
式 文件 系统 则 用 来 存储 不 需要 经 常 更 新 的 数据 ， 它 们 也 往往 是 大 规模 批量 
计算 所 依赖 的 数据 存储 方式 。 


这 种 传统 架构 成 功 地 服务 了 几 十 年 ， 但 随 着 大 型 分 布 式 系 统 中 的 计算 复杂 
度 不 断 上 升 ， 这 种 架构 已 经 不 堪 重 负 。 许 多 公司 经 常 遇 到 以 下 问题 。 


。 在 许多 项 目 中 ， 从 数据 到 达到 数据 分 析 所 需 的 工作 流程 太 复杂 、 太 缓慢 。 

。 传统 的 数据 架构 太 单一 : 数据 库 是 唯一 正确 的 数据 产 ， 每 一 个 应 用 程序 
都 需要 通过 访问 数据 库 来 获得 所 需 的 数据 。 

。 采用 这 种 架构 的 系统 拥有 非常 复杂 的 异常 问题 处 理 方法 。 当 出 现 异 常 问 
题 时 ， 很 难保 证 系统 还 能 很 好 地 运行 。 


传统 架构 的 男 一 个 问题 是 ， 需 要 通过 在 大 型 分 布 式 系 统 中 不 断 地 更 新 来 维 
持 一 致 的 全 局 状态 。 随 着 系统 规模 扩大 ， 维 持 实 际 数据 与 状态 数据 间 的 一 
致 性 变 得 越 来 越 困 难 ， 流 处 理 架 构 则 少 了 对 这 方面 的 要 求 ， 只 需要 维持 本 
地 的 数据 一 致 性 即 可 。 


作为 一 种 新 的 选择 ， 流 处 理 架 构 解 决 了 企业 在 大 规模 系统 中 遇 到 的 诸多 问 
题 。 以 流 为 基础 的 架构 设计 让 数据 记录 持续 地 从 数据 源流 向 应 用 程序 ，3 
在 各 个 应 用 程序 间 持 续 流 动 。 没 有 一 个 数据 库 来 集中 存储 全 局 状态 数据 ， 
取而代之 的 是 共享 且 永 不 停止 的 流 数据 ， 它 是 唯一 正确 的 数据 源 ， 记 录 了 
业务 数据 的 历史 。 在 流 处 理 架构 中 ， 每 个 应 用 程序 都 有 自己 的 数据 ， 这 些 
数据 采用 本 地 数据 库 或 分 布 式 文件 进行 存储 。 


2.2 ”消息 传输 层 和 流 处 理 层 


如 何 有 效 地 实现 流 处 理 架 构 并 从 Flink 中 获 益 呢 ?” 一 个 常见 的 做 法 是 设置 消 
息 传输 层 和 流 处 理 层 ， 如 图 2-1 所 示 。 


(1) 消息 传输 层 从 各 种 数据 源 (生产 者 ) 采集 连续 事件 产生 的 数据 ， 并 传输 
给 订阅 了 这 些 数 据 的 应 用 程序 和 服务 (消费 者 )。 

(2) 流 处 理 层 有 3 个 用 途 : @ 持 续 地 将 数据 在 应 用 程序 和 系统 间 移 动 ， @ 聚 
合并 处 理事 件 ，@ 在 本 地 维持 应 用 程序 的 状态 。 






































五 





































































































































































































消息 传输 层 流 处 理 层 














图 2-1: Flink 项 目的 架构 有 两 个 主要 组 成 部 分 : 消息 传输 层 和 由 Flink 提供 的 流 处 


理 层 。 消 息 传输 层 负 责 传输 连续 事件 产生 的 消息 ， 能 够 提供 消息 传输 的 系统 包括 


Kafka 和 MapR Streams。MapR Streams 是 MapR 融合 数据 平台 的 一 个 主要 组 成 


部 分 ， 它 兼容 Kafka API 


围绕 着 实时 应 用 程序 产生 





的 兴奋 感 会 将 人 们 的 注意 力 集中 到 流 处 到 

















之 外 ， 还 有 其 他 的 流 处 到 








工具 可 供 选择 〈 比 如 Spark Streaming、 




















Samza 和 Apex) 。 本 书 中 的 示例 都 以 Flink 作为 流 处 理 器 。 

















E 层 上 ， 


并 促使 人 们 思考 如 何 根据 具体 的 项 目 需求 选择 流 处 理 技术 。 除 了 Flink 


Storm、 


事实 上 ， 在 设计 高 效 的 流 处 理 架 构 时 ， 不 仅 流 处 理 器 的 选择 会 造成 架构 的 
巨大 差异 ， 消 息 传输 层 也 很 关键 。 现 代 系 统 之 所 以 更 容易 处 理 大 规模 的 流 





数据 ， 其 中 很 大 一 部 分 原因 就 是 消息 传输 方式 的 改进 ， 以 及 流 处 弄 
息 传输 系统 的 交互 方式 的 改变 。 














器 与 消 


消息 传输 层 需要 具备 一 些 特定 的 功能 。 目 前 来 看 ， 有 两 种 技术 可 以 很 好 
地 提供 所 需 的 功能 ， 它 们 便 是 Kafka 和 MapR Streams。MapR Streams 是 


MapR 融合 数据 平台 的 一 部 分 ， 它 支持 Kafka API[。 本 











息 传输 层 采用 Kafka 或 MapR Streams。 


2.3 ”消息 传输 层 的 理想 功能 


流 处 理 架 构 的 消息 传输 层 需要 具备 哪些 功能 呢 ? 





中 的 示例 都 假设 消 





流 处 理 架 构 


2.3.1 兼 具 高 性 能 和 持久 性 

消息 传输 层 的 一 个 作用 是 作为 流 处 理 层 上 游 的 安全 队列 一 一 它 相 当 于 缓冲 

区 ， 可 以 将 事件 数据 作为 短期 数据 保留 起 来 ， 以 防 数 据 处 理 过 程 发 生 中 断 。 

直到 最 近 几 年 ， 高 性 能 和 持久 性 不 可 兼 得 的 困境 才 被 打破 。 人 们 习惯 上 认 

为 流 数 据 从 消息 传输 层 到 流 处 理 层 之 后 就 被 丢弃 用 了 就 没 了 。 

为 了 设计 新 一 代 的 流 处 理 架 构 ， 高 性 能 和 持久 性 不 可 兼 得 是 首先 要 改变 的 
个 观念 。 兼 具 高 性 能 和 持久 性 对 于 消息 传输 系统 来 说 至 关 重要 ，Kafka 和 

MapR Streams 都 可 以 满足 这 个 需求 。 




















具有 持久 性 的 好 处 之 一 是 消息 可 以 重播 。 这 个 功能 使 得 像 Flink 这 样 的 处 理 
器 能 对 事件 流 中 的 某 一 部 分 进行 重播 和 再 计算 (第 5 章 会 详细 介绍 )。 正 是 
由 于 消息 传输 层 和 流 处 理 层 相 互 作用 ， 才 使 得 像 Flink 这 样 的 系统 有 了 准确 
处 理 和 “时 空 穿梭 ”( 指 重新 处 理 数据 的 能 力 ) 的 保障 ， 认 识 到 这 一 点 至 关 
重要 。 


2.3.2 ”将 生产 者 和 消费 者 解 看 

采用 高 效 的 消息 传输 技术 ， 可 以 从 多 个 源 (生产 者 ) 收集 数据 ， 并 使 这 些 
数据 可 供 多 个 服务 或 应 用 程序 (消费 者 ) 使 用 ， 如 图 2-2 所 示 。Kafka 和 
MapR Streams 把 从 生产 者 获得 的 数据 分 配给 既定 的 主题 。 数 据 源 将 数据 
推送 给 消息 队列 ， 消 费 者 (或 消费 者 群 组 ) 则 拉 取 数据 。 事 件数 据 只 能 
基于 给 定 的 偏 移 量 从 消息 队列 中 按 顺 序 读 出 。 生 产 者 并 不 向 所 有 消费 者 自 
动 广播 。 这 一 点 听 起 来 微不足道 ， 但 是 对 整个 架构 的 工作 方式 有 着 巨大 的 
影响 。 





















































这 种 传输 方式 一 一 消费 者 订阅 感 兴 趣 的 主题 一 一 意味 着 消息 立刻 到 达 ， 但 
并 不 需要 被 立刻 处 理 。 在 消息 到 达 时 ， 消 费 者 并 不 需要 处 于 运行 状态 ， 而 
是 可 以 根据 自身 的 需求 在 任何 时 间 使 用 数据 。 这 样 一 来 ， 添 加 新 的 消费 者 
和 生产 者 也 很 容易 。 采 用 解 耦 的 销 息 传 输 系 统 很 有 意义 ， 因 为 它 能 支持 微 
服务 ， 也 支持 将 处 理 步骤 中 的 实现 过 程 隐藏 起 来 ， 从 而 允许 自由 地 修改 实 
现 过 程 。 






































消费 者 群 组 


消费 者 群 组 


消费 者 群 组 


图 2-2: 在 Kafka 和 MapR Streams 这 样 的 消息 传输 工具 中 ， 数 据 的 生产 者 和 消费 
者 (Flink 应 用 程序 也 是 其 中 的 一 种 消费 者 ) 是 解 耦 的 。 到 达 的 消息 既 可 以 立刻 被 使 用 ， 
也 可 以 稍 后 被 使 用 。 消 费 者 从 队列 中 订阅 消息 ， 而 不 是 由 生产 者 向 所 有 消费 者 广播 。 
在 消息 到 达 的 时 候 ， 消 费 者 不 必 处 于 运行 状态 


:> 二 类 
2.4 支持 微服 务 架 构 的 流 数 据 
微服 务 方法 指 的 是 将 大 型 系统 的 功能 分 割 成 通常 具有 单一 目的 的 简单 服务 ， 
从 而 使 小 型 团队 可 以 轻松 地 构建 和 维护 这 些 服务 。 即 使 是 超大 型 组 织 ， 也 
可 以 用 这 种 设计 实现 敏捷 。 若 要 使 整个 系统 正常 工作 ， 各 服务 之 间 因 通信 
而 产生 的 连接 必须 是 轻 量 级 的 。 


























































“( 微 服务 的 ) 目标 是 给 予 每 个 团队 一 项 工作 ， 并 授 以 完成 工 
作 的 方法 ， 然 后 就 放手 。 
摘自 Streaming Architecture 一 书 的 第 3 章 ， 该 书 由 O'Reilly 
Media 于 2016 年 出 版 ， 作 者 是 Ted Dunning 和 Ellen Friedman。 

















消息 传输 系统 一 方面 将 生产 者 稍 费 者 解 簿 ， 另 一 方面 又 有 足够 高 的 吞吐 
量 ， 并 且 能 够 满足 像 Flink 这 样 的 高 性 能 流 处 理 器 。 这 种 系统 非常 适合 用 于 
构建 微服 务 。 就 连接 微服 务 而 言 ， 流 数据 是 相对 较 新 的 模式 ,但 是 它 有 许 
多 好 处 ， 接 下 来 的 几 小 市 将 进行 解释 。 
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2.4.1 数据 流 作为 中 心 数据 源 

通过 上 文 的 讨论 可 以 看 出 ， 流 处 理 架 构 的 核心 是 使 各 种 应 用 程序 互 连 在 一 
起 的 消息 队列 。 流 处 理 器 (例如 本 书 介绍 的 Flink) 从 消息 队列 中 订阅 数据 
并 加 以 处 理 。 处 理 后 的 数据 可 以 流向 另 一 个 消息 队列 。 这 样 一 来 ， 其 他 应 
用 程序 (包括 其 他 Flink 应 用 程序 ) 都 可 以 共享 流 数 据 。 在 一 些 情况 下 ， 处 
理 后 的 数据 会 被 存放 在 本 地 数据 库 中 ， 如 图 2-3 所 示 。 






































图 2-3: 在 流 处 理 架构 中 ， 消 息 队 列 〈 图 中 以 水 平 圆柱 体 表示 ) 连接 应 用 程序 ， 并 作 
为 新 的 共享 数据 源 ， 它 们 取代 了 从 前 的 大 型 集中 式 数 据 库 。 在 本 例 中 ，Flink 被 多 个 
应 用 程序 使 用 。 本 地 化 的 数据 能 够 根据 微服 务 项 目的 需要 被 存储 在 文件 或 者 数据 库 中 。 
这 种 流 处 理 架构 的 另 一 个 好 处 是 ， 流 处 理 器 (例如 Flink) 还 可 以 保障 数据 一 致 性 


流 处 理 架 构 不 需要 集中 式 数据 库 。 取 而 代 之 的 是 消息 队列 ， 
它 作为 共享 数据 源 ， 服 务 于 各 种 不 同 的 消费 者 。 





2.4.2 ”欺诈 检测 : 流 处 理 架 构 用 例 
基于 流 处 理 的 微服 务 架 构 有 着 强大 的 灵活 性 ， 特 别 是 当 同 一 份 数据 被 用 于 





22 | 第 2 章 


不 同 的 场景 时 ， 基 灵活 性 更 为 明显 。 以 信用 卡 服 务 提供 商 的 欺诈 检测 项 目 
为 例 。 项 目的 目标 是 尽 可 能 快 地 识别 可 疑 的 刷卡 行为 ， 从 而 阻止 盗 刷 ， 并 
将 损失 降 到 最 低 。 例 如 ， 欺 诈 检 测 器 可 以 将 刷卡 速度 作为 评判 依据 ， 在 很 
短 的 时 间 内 ， 发 生 在 跨度 很 大 的 不 同 地 点 ， 这 样 的 连续 交易 合理 吗 ? 事实 
上 ， 真 正 的 欺诈 检测 器 会 使 用 儿 十 个 (其 至 几 百 个 ) 特征 作为 评判 依据 ， 
但 是 我 们 仅仅 通过 分 析 刷 卡 速度 这 一 个 特征 就 可 以 理解 许多 问题 。 



































图 2-4 展示 了 流 处 理 架构 在 欺诈 检测 项 目 中 的 优势 。 在 图 中 ,许多 销售 终端 
(POS 机 1~n) 请 求 欺诈 检测 器 判定 是 否 有 欺诈 行为 。 这 些 来 自 销 售 终端 的 
询问 需要 立即 被 应 答 ， 因 此 在 销售 终端 与 欺诈 检测 器 之 间 形 成 了 询问 与 应 
答 的 交互 。 








POS 机 


l~n 

















ren) 


刷卡 行为 
分 析 器 























图 2-4: 欺诈 检测 可 以 从 基于 流 处 理 的 微服 务 架构 中 受益 。 在 这 种 架构 中 ，Flink 在 
如 下 几 个 部 分 都 非常 有 用 : 欺诈 检测 器 、 更 新 器 ， 甚 至 刷卡 行为 分 析 器 。 值 得 一 提 
的 是 ， 这 种 架构 没有 直接 在 本 地 数据 库 中 更 新 刷卡 行为 的 数据 ， 而 是 将 数据 放 在 消 
息 队列 里 ， 这 些 数据 还 可 以 不 受 干扰 地 被 刷卡 行为 分 析 器 等 其 他 服务 使 用 (图 片 来 


源 : Streaming Architecture 第 6 章 ) 
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传统 的 欺诈 检测 模型 将 包含 每 张 信 用 卡 最 后 一 次 刷卡 地 点 的 文件 直接 存储 
在 数据 库 中 。 但 在 这 样 的 集中 式 数 据 库 设 计 中 ， 其 他 消费 者 并 不 能 轻易 使 
用 刷卡 行为 的 数据 ， 因 为 访问 数据 库 可 能 会 影响 欺诈 检测 系统 的 正常 工作 ， 
在 没有 经 过 认真 仔细 的 审查 之 前 ， 其 他 消费 者 绝 不 会 被 授权 更 改 数据 库 。 
这 将 导致 整个 流程 变 慢 ， 因 为 必须 仔细 执行 各 种 检查 ， 以 避免 核心 的 业务 
功能 受到 破坏 或 影响 。 












































与 传统 方法 相 比 ， 图 2-4 所 示 的 流 处 理 架 构 设 计 将 欺诈 检测 器 的 输出 发 送 给 
外 部 的 消息 队列 (Kafka 或 MapR Streams)， 再 由 如 Flink 这 样 的 流 处 理 器 
更 新 数据 库 ， 而 不 是 直接 将 输出 发 送 给 数据 库 。 这 使 得 刷卡 行为 的 数据 可 
以 通过 消息 队列 被 其 他 服务 使 用 ， 例 如 刷卡 行为 分 析 器 。 上 一 次 刷卡 行为 
的 数据 被 存储 在 本 地 数据 库 中 ， 不 会 被 其 他 服务 访问 。 这 样 的 设计 避免 了 
因为 增加 新 的 服务 而 带 来 的 过 载 风险 。 


2.4.3 ”给 开发 人 员 带 来 的 灵活 性 
基于 流 处 理 的 微服 务 架 构 也 为 欺诈 检测 系统 的 开发 人 员 带 来 了 灵活 性 。 假 
设 开发 团队 正 试图 改进 欺诈 检测 模型 并 加 以 评估 。 刷 卡 行为 产生 的 消息 流 
可 以 被 新 模型 采用 ， 而 完全 不 影响 已 有 的 检测 器 。 新 增加 一 个 数据 消费 者 
的 开销 几乎 可 以 忽略 不 计 ， 同 时 只 要 合适 ， 数 据 的 历史 信息 可 以 保存 成 任 
何 一 种 格式 ， 并 且 使 用 任意 的 数据 库 服务 。 此 外 ， 如 果 刷 卡 行为 队列 中 的 
消息 被 设计 成 业务 级 别 的 事件 ， 而 不 是 数据 库 表 格 的 更 新 ， 那 么 消息 的 形 
式 和 内 容 都 会 非常 稳定 。 若 一 定 要 更 改 ， 向 前 兼容 可 以 避免 更 改 已 有 的 应 
用 程序 。 
































































































































































































































信用 卡 欺 诈 检测 只 是 流 处 理 架 构 的 一 个 用 例 。 流 处 理 架 构 通过 一 个 合适 的 
消息 传输 系统 (Kafka 或 MapR Streams) 和 一 个 多 用 途 、 高 性 能 的 流 处 理 
器 (Flink)， 能 支持 各 种 应 用 程序 使 用 共享 数据 源 ， 即 消息 流 。 


LK 
2.5 不 限于 实时 应 用 程序 
虽然 低 延 迟 性 很 重要 ,但 是 实时 应 用 程序 只 是 众多 流 数 据 消 费 者 中 的 一 种 。 
流 数 据 的 应 用 很 广泛 ， 比 如 ， 流 处 理应 用 程序 可 以 通过 订阅 消息 队列 中 的 
流 数据 来 实时 更 新 仪表 盘 (如 图 2-5 中 的 A 组 消费 者 )。 
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持久 化 的 消息 可 以 被 重播 ， 这 一 特性 使 许多 用 户 获 益 〈 如 图 2-5 中 的 C 组 
消费 者 )。 在 本 例 中 ， 消 息 流 成 为 了 可 审计 的 日 志 ， 或 者 长 期 的 事件 历史 。 
能 够 重 现 的 历史 非常 有 用 ， 比 如 可 以 在 工业 安全 分 析 中 作为 预知 维护 模型 
的 一 部 分 输入 ， 也 可 以 在 医学 或 环境 科学 领域 用 于 回顾 性 研究 。 





















































































































































图 2-5: 流 数 据 消费 者 并 不 仅 限 于 实时 应 用 程序 ， 尽 管 它们 是 很 重要 的 一 种 。 本 图 
展示 了 从 流 处 理 架 构 中 获 益 的 几 类 消费 者 。A 组 消费 者 可 能 做 各 种 实时 分 析 ， 包 括 
实时 更 新 仪表 盘 。B 组 消费 者 记录 数据 的 当前 状态 ， 这 些 数据 可 能 同时 也 被 存储 在 
数据 库 或 搜索 文件 中 
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在 其 他 一 些 用 例 中 ， 应 用 程序 使 用 消息 队列 中 的 数据 更 新 本 地 数据 库 或 者 
搜索 文件 (如 图 2-5 中 的 B 组 消费 者 )。 消 息 队 列 中 的 数据 往往 必须 被 流 处 
理 器 聚合 或 者 分 析 并 转换 之 后 ， 才 会 输出 到 数据 库 中 。 这 是 Flink 擅长 的 另 


一 个 场景 。 


2.6 流 的 跨 地 域 复 制 


流 处 理 架 构 并 不 是 玩具 : 它 被 用 于 具有 重要 使 命 的 系统 ， 这 些 系统 要 求 流 
处 理 层 和 消息 传输 层 具 备 一 些 特性 。 许 多 关键 的 业务 系统 依靠 跨 数据 中 心 
的 一 致 性 ， 它 们 不 仅 需 要 高 效 的 流 处 理 层 ， 更 需要 消息 传输 层 拥 有 可 靠 的 
跨 地 域 复制 能 力 。 例 如 ， 电 信 公 司 需要 在 移动 通信 和 基站、 用户 和 处 理 中 心 
之 间 共 享 数 据 ， 金 融 机 构 需要 快速 、 准 确 地 在 相隔 很 远 的 办 公 室 之 间 复 制 
数据 ， 同 时 控制 成 本 。 类 似 的 例子 还 有 很 多 。 


具体 来 说 ， 数 据 中 心 之 间 的 数据 复制 需要 保存 消息 偏 移 量 ， 这 一 点 最 有 用 ， 
因为 它 使 得 任何 数据 中 心 的 更 新 都 可 以 被 传播 到 其 他 数据 中 心 ， 且 允许 双 
向 和 循环 的 数据 复制 。 如 果 消 息 偏 移 量 没 有 被 保 在 ， 那 么 另 一 个 数据 中 心 
就 无 法 可 靠 地 重启 程序 。 如 果 不 允 许 其 他 数据 中 心 更 新 数据 ， 那 么 就 必须 
设计 可 靠 的 主 节 点 。 循 环 复制 则 可 以 避免 复制 过 程 出 现 单 点 故障 。 













































































MapR Streams 目前 支持 这 些 功 能 , 但 Kafka 还 不 支持 '。MapR Streams 的 基 
本 原理 是 ， 许 多 流 主题 被 收集 在 一 级 数据 结构 中 ， 该 结构 也 叫 作 流 ， 它 与 
文件 、 表 格 和 目录 共存 于 MapR 的 数据 平台 。 这 些 流 成 为 管理 数据 复制 、 
生存 时 间 和 访问 权限 的 基础 。 在 流 中 针对 主题 所 做 的 变更 将 被 贴 上 源 集 群 
的 DD， 避免 它 被 无 限 地 循环 复制 。 之 后 ， 这 些 变更 被 依次 传播 到 其 他 集群 
中 ， 并 且 保 留 所 有 的 消息 偏 移 量 。 


跨 数 据 中 心 的 流 复制 能 力 扩 展 了 流 数 据 和 流 处 理 的 用 途 。 以 在 线 广告 业务 
为 例 ， 流 数据 分 析 可 以 从 多 个 方面 提供 帮助 。 结 合 图 2-5 中 的 流 数 据 消 费 
者 分 类 ， 在 广告 技术 领域 ， 实 时 应 用 程序 (A 组 消费 者 ) 可 能 面临 实时 的 
广告 资源 管理 ， 数 据 库 (B 组 消费 者 ) 当前 状态 的 视图 可 能 是 cookie 档案 ， 
流 重 播 (C 组 消费 者 ) 则 可 以 用 来 检测 虚假 点 击 。 
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注 1: 作者 在 此 处 描述 的 是 2016 年 的 情况 。 至 于 Kafka 目前 是 否 支 持 ， 请 查阅 Kafka 官 
方 文档 。 编者 注 





























26 | 第 2 章 


一 个 挑战 是 ， 同 一 个 广告 的 不 同 竞价 由 不 同 的 数据 中 心 处 理 ， 但 数据 都 取 
自 同一 个 广告 资源 池 。 在 准确 性 和 速度 都 非常 关键 的 广告 技术 领域 ， 不 同 
的 数据 中 心 如 何 协调 可 用 的 广告 资源 呢 ” 消 息 流 作为 正确 的 数据 源 被 各 
个 数据 中 心 共享 。 在 本 例 中 ， 跨 数据 中 心 的 流 复制 能 力 非常 有 用 ，MapR 
Streams 就 有 这 样 的 能 























核心 数据 中 心 











图 2-6: 来 自 广告 技术 领域 的 例子 ， 流 数据 分 析 在 不 同 的 数据 中 心 进 行 ， 且 数据 中 
心 有 多 种 基于 模型 的 应 用 程序 ，Flink 对 这 些 应 用 程序 非常 有 用 。 每 个 本 地 数据 中 心 
都 需要 保存 自己 的 当前 事务 状态 ， 而 它们 都 从 同一 个 广告 资源 池 读 取 数 据 。 另 一 个 
需求 是 与 核心 数据 中 心 共享 数据 ， 并 且 可 以 利用 Flink 进行 全 局 分 析 。 本 用 例 需 要 
高 效 且 准 确 地 进行 跨 地 域 复制 


除了 能 让 所 有 的 业务 部 门 了 解 共 享 资源 的 最 新 状态 (这 个 例子 在 其 他 许多 
行业 也 同样 适用 )， 跨 数据 中 心 的 流 复制 能 力 还 有 其 他 优势 。 拥 有 不 止 一 个 
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数据 中 心 ， 可 以 缓解 高 吞吐 所 带 来 的 压力 ;广告 的 竞价 和 投放 可 以 由 靠近 
最 终 用 户 的 数据 中 心 处 理 ， 从 而 降低 网 络 传输 带 来 的 延迟 。 另 外 ， 多 个 数 
据 中 心 也 可 以 进行 备份 ， 从 而 防止 突 发 灾难 时 丢失 数据 。 
我 们 在 第 1 章 和 第 2 章 中 看 到 ， 流 处 理 的 方式 符合 连续 事件 发 生 的 自然 规 
律 。 我 们 还 讨论 了 流 处 理 架 构 的 诸多 好 处 ， 这 种 架构 结合 了 Kafka 或 MapR 
Streams 等 高 效 的 消息 传输 技术 ， 以 及 Flink 流 处 理 器 。 












































在 第 3 章 中 ， 我 们 将 探讨 Flink 的 关键 特性 ， 并 在 深入 学 习 Flink 的 工作 原 
理 之 前 ， 概 览 它 的 用 途 。 
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Flink 为 流 处 理 器 开辟 了 新 的 用 武之 地 ， 它 使 第 2 章 所 述 的 流 处 理 架 构 变 得 
完整 。 它 的 一 大 优势 便 是 ， 使 应 用 程序 的 构建 过 程 符合 自然 规律 。 为 了 了 
解 Flink 的 用 途 及 用 法 ， 我 们 来 看 一 看 令 它 具 有 多 用 途 的 几 个 核心 特点 ， 特 
别 是 它 如 何 保障 数据 的 正确 性 。 


3.1 不 同类 型 的 正确 性 

第 1 章 介 绍 了 流 处 理 欠 佳 的 后 果 。 本 章 讨论 Flink 如 何 正 确 地 进行 流 处 理 ， 
以 及 保障 正确 性 到 底 意 味 着 什么 。 人 们 往往 将 正确 性 等 同 于 准确 性 一 一 以 
计数 为 例 ， 计 数 结果 是 否 “ 正 确 ”? 这 个 例子 很 好 地 诠释 了 正确 性 ， 但 是 
正确 性 的 影响 因素 很 多 ， 当 思考 计算 怎样 才能 契合 需要 建 模 和 分 析 的 场景 
时 ， 更 是 如 此 。 换 句 话 说， 在 处 理 数 据 时 ， 需 要 解决 这 几 个 问题 :“ 我 需要 
什么 ? ““ 我 期 望 什么 ?““ 我 在 什么 时 候 需要 得 到 结果 ? “ 


3.1.1 符合 产生 数据 的 自然 规律 

流 处 理 器 (尤其 是 Flink) 的 正确 性 体现 在 计算 窗口 的 定义 符合 数据 产生 的 
自然 规律 。 举 个 例子 ， 通 过 点 击 流 数 据 追 踪 某 网 站 的 3 个 访问 者 (图 3-1 中 
的 A、B 和 C) 的 活动 。 对 于 每 个 访问 者 来 说 ,活动 是 不 连续 的 。 在 访问 时 
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间 段 内 ， 事 件数 据 被 收集 起 来 ， 当 访问 者 起 身 去 喝 茶 或 喝 咖啡 时 ， 或 者 当 
他 们 因为 老板 从 身边 经 过 而 切换 回 工作 页 面 时 ， 数 据 就 产生 了 间隙 。 处 理 
框架 能 够 将 访问 者 行为 分 析 的 计算 窗口 与 实际 的 访问 时 间 段 吻合 到 什么 程 
度 ? 换 名 话说， 计算 窗口 与 会 话 窗 口吻 合 吗 ? 


首先 让 我 们 来 看 看 ， 当 访问 者 行为 分 析 通 过 微 批 处 理 方法 或 者 固定 的 计算 
窗口 来 处 理 时 ， 会 发 生 什么 情况 ， 如 图 3-1 所 示 。 



















































































图 3-1; 采用 微 批 处 理 方法 时 ， 很 难 使 计算 窗口 (虚线 所 示 ) 与 会 话 窗口 (长 方形 所 
示 ) 吻合 





由 微 批 处 理 方 法 得 到 的 计算 窗口 是 人 为 设置 的 ， 因 此 很 难 与 会 话 窗口 吻合 。 
使 用 Flink 的 流 处 理 API， 可 以 更 灵活 地 定义 计算 窗口 ， 因 此 这 个 问题 迎 丸 
而 解 。 举 个 例子 ， 开 发 人 员 可 以 设置 非 活动 闵 值 ， 若 超过 这 个 闵 值 (例如 5 
分 钟 )， 就 可 以 判断 活动 结束 。 图 3-2 展示 了 这 种 开 窗 方 式 。 
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图 3.2，Flink 的 流 处 理 能 力 能 够 使 计算 窗口 与 会 话 窗口 吻合 。 如 图 所 示 ， 计 算 窗口 
随 间 阶 出 现 。 在 本 例 中 ， 相 邻 事件 之 间 都 有 间隙 ， 间 阶 的 时 长 都 超过 了 预先 定义 的 
闭 值 














Flink 能 做 到 这 一 点 的 根本 原因 是 ， 它 可 以 根据 真实 情况 设置 计算 窗口 。 





事件 时 间 与 处 理 时 间 
值得 注意 的 是 ， 时 间 的 指定 方式 不 止 一 种 。 在 图 3-2 的 例子 中 ,为 了 将 
事件 指定 给 某 一 个 窗口 ， 程 序 员 很 有 可 能 会 选择 采用 事件 时 间 ， 即 事件 
实际 发 生 的 时 间 。 另 一 种 方式 是 采用 处 理 时 间 ， 即 事件 流 数据 开始 被 程 
序 处 理 的 时 间 。 第 4 章 将 深入 介绍 Flink 中 的 时 间 概 念 以 及 开 窗 方式 。 














3.1.2 事件 时 间 

一 般 而 言 ， 流 处 理 架 构 不 常 采 用 事件 时 间 ， 尽 管 越 来 越 多 的 人 这 样 做 。 
Flink 能 够 完美 地 做 到 这 一 点 ， 这 在 实现 计算 的 正确 性 上 非常 有 用 。 为 了 获 
得 最 佳 的 计算 结果 ， 系 统 需 要 能 够 通过 数据 找到 事件 发 生 的 时 间 ， 而 不 是 
只 采用 处 理 时 间 。 





















































Flink 理解 事件 时 间 的 这 种 能 力 保 障 了 正确 性 。2016 年 ， 时 任 data Artisans 
公司 应 用 工程 总 监 的 Jamie Grier 在 OSCON 大 会 上 展示 了 这 一 点 。 他 通过 
生成 的 数据 模拟 压力 传感器 的 测量 结果 ， 并 写 了 一 个 Flink 程序 来 计算 以 1 
秒 为 计算 窗口 、 每 秒 内 正弦 波 的 数值 之 和 。 正 确 的 结果 是 0。 他 比较 了 用 
处 理 时 间 划 分 窗口 和 用 事件 时 间 划 分 窗口 的 差别 。 采 用 处 理 时 间 时 ， 结 果 
总 是 或 多 或 少 地 有 些 偏差 ， 采 用 事件 时 间 时 ， 则 总 是 可 以 获得 正确 的 结果 ， 
如 图 3-3 所 示 。 
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处 理 时 间 事件 时 间 








图 3-3: 从 处 理 时 间 切 换 到 事件 时 间 ， 让 许多 计算 工作 完成 得 更 好 。 用 处 理 时 间 


来 计算 会 导致 错误 ， 用 事件 时 间 则 能 得 到 正确 的 结果 (图 片 来 
2016 年 5 月 在 OSCON 大 会 上 所 做 的 演示 ) 


源 : Jamie Grier 于 





与 其 他 流 处 理 系 统 相 比 ，Flink 的 一 个 优势 就 是 能 区 分 不 同类 型 的 时 间 。 





3.1.3 发 生 故 障 后 仍 保持 准确 
若 想 使 计算 保持 准确 ， 就 必须 跟踪 计算 状态 。 如 果 计 算 4 


E 架 本 身 不 能 做 到 





这 一 点 ， 就 必须 由 应 用 程序 的 开发 人 员 来 完成 这 个 任务 。 





> 














进行 的 。 


连续 的 流 处 理 很 


和 E 跟 踪 计 算 状 态 ， 因 为 计算 过 程 没有 终点 。 实 际 上 ， 对 状态 的 更 新 是 持续 





Flink 解决 了 可 能 影响 正确 性 的 几 个 问题 ， 包 括 如 何在 故障 发 生 之 后 仍 能 ; 


行 有 状态 的 计算 。 
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Flink 所 用 的 技术 叫 作 检查 点 (checkpoint)， 第 5 章 会 详细 介绍 它 的 原理 。 
在 每 个 检查 点 ， 系 统 都 会 记录 中 间 计 算 状 态 ， 从 而 在 故障 发 生 时 准确 地 重 
置 。 这 一 方法 使 系统 以 低 开 销 的 方式 拥有 了 容错 能 力 一 一 当 一 切 正常 时 ， 
检查 点 机 制 对 系统 的 影响 非常 小 。 














值得 注意 的 是 ， 检 查 点 也 是 Flink 能 够 按 需 重新 处 理 数据 的 关键 所 在 。 毕 
竞 ， 并 不 是 只 有 在 发 生 故 障 之 后 才 会 重新 处 理 数据 。 比 如 ， 在 运行 新 模型 
或 者 修复 bug 时 ， 就 可 能 需要 重播 并 重新 处 理事 件 流 数 据 。Flink 成 全 了 这 
些 操 作 。 














Flink 的 检查 点 特性 在 流 处 理 器 中 是 独一无二 的 ， 它 使 得 
Flink 可 以 准确 地 维持 状态 ， 并 且 高 效 地 重新 处 理 数据 。 

















3.1.4 及 时 给 出 所 需 结果 

Flink 能 够 满足 低 延 迟 应 用 程序 的 需要 ， 将 这 算 作 一 种 正确 性 可 能 出 人 意 
料 。 我 们 换个 角度 看 看 : 有 些 计算 结果 或 许 很 准确 ， 例 如 求 和 或 者 求 平均 
值 的 结果 ， 但 是 如 果 没 有 及 时 地 取得 结果 ， 那 么 很 难说 它们 是 正确 的 。 举 
一 个 例子 ,假设 你 在 开车 上 班 的 途中 想 通 过 智能 手机 上 的 实时 路 况 查 询 及 
导航 应 用 程序 选择 一 条 畅通 的 路 ， 如 果 应 用 程序 花 了 2 小 时 才 把 查询 结果 
发 给 你 ， 那 么 结果 再 准确 也 是 无 用 的 。 哪 怕 只 有 5 秒 钟 的 延迟 也 足以 造成 
麻烦 ， 因 为 你 可 能 已 经 拐 错 了 弯 。 











可 见 ， 在 某 些 情况 下 ， 极 低 的 延迟 非常 重要 ， 它 决定 了 系统 能 够 及 时 地 给 









































出 所 需 结果 ， 而 不 仅仅 是 完成 计算 。Flink 的 实时 且 容 错 的 流 处 理 能 力 可 以 
满足 这 类 需求 。 


3.1.5 ”使 开发 和 运 维 更 轻松 

Flink 与 用 户 交 互 的 接口 也 有 助 于 保障 正确 性 。 完 备 的 语义 简化 了 开发 工 
作 ， 进 而 降低 了 出 错 率 。 此 外 ，Flink 还 承担 了 跟踪 计算 状态 的 任务 ， 从 而 
减轻 了 开发 人 员 的 负担 ， 简 化 了 编程 工作 ， 并 提高 了 应 用 程序 的 成 功率 。 
用 同一 种 技术 来 实现 流 处 理 和 批 处 理 ， 大 大 地 简化 了 开发 和 运 维 工作 。 
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3.2 分 阶段 采用 Flink 


尽管 Flink 拥有 非常 丰富 的 功能 ， 并 能 处 理 极 为 复杂 的 数据 ， 但 是 没有 必要 
为 了 采用 Flink 而 彻底 抛弃 其 他 技术 。 流 处 理 架构 可 以 分 步 来 实现 。 有 些 公 
司 在 引入 流 处 理 架构 时 ， 先 实现 简单 的 应 用 程序 ， 等 到 熟悉 后 再 推广 。 虽 
然 试点 应 用 程序 的 类 型 完全 取决 于 公司 的 需求 ， 但 是 许多 公司 都 有 相似 的 
流 处 理 “ 价 值 链 。 
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接 下 来 ， 让 我 们 抓 住 机 会 深入 了 解 Flink 能 做 什么 以 及 它 是 如 何 做 到 的 。 第 
4~6 章 将 介绍 Flink 的 一 些 基本 功能 。 
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对 时 间 的 处 理 

















用 流 处 理 器 编程 和 用 批 处 理 器 编程 最 关键 的 区 别 在 于 对 时 间 的 处 理 。 举 
个 非常 简单 的 例子 : 计数 。 事 件 流 数据 (如 微 博 内 容 、 点 击 数据 和 交易 数 
据 ) 不 断 产生 ， 我 们 需要 用 key 将 事件 分 组 ， 并 且 每 隔 一 段 时 间 (比如 一 
小 时 ) 就 针对 每 一 个 key 对 应 的 事件 计数 。 这 是 众所周知 的 “大 数据 ”应 
用 ， 与 MapReduce 的 词 频 统计 例子 相似 。 


4.1 采用 批 处 理 架构 和 Lambda 架 构 计 数 


尽管 看 起 来 简单 ， 但 是 大 规模 的 计数 任务 在 实践 中 出 人 意料 地 困难 。 当 然 ， 
计数 无 处 不 在 。 针 对 联机 分 析 处 理 多 维 数据 集 的 聚合 或 其 他 操作 ， 都 可 以 
简单 地 归结 为 计数 。 图 4-1 展示 了 如 何 采 用 传统 的 批 处 理 架 构 实现 计数 
任务 。 













































































在 该 架构 中 ， 持 续 摄 取 数 据 的 管道 每 小 时 创建 一 次 文件 。 这 些 文件 通常 被 
存储 在 HDFS 或 MapR-FS 等 分 布 式 文件 系统 中 。 像 Apache Flume 这 样 的 
工具 可 以 用 于 完成 上 述 工作 。 由 调度 程序 安排 批 处 理 作业 (如 MapReduce 
作业 ) 分 析 最 近 生 成 的 一 个 文件 (将 文件 中 的 事件 按 key 分 组 ， 计 算 每 个 
key 对 应 的 事件 数 )， 然 后 输出 计数 结果 。 对 于 每 个 使 用 Hadoop 的 公司 来 
说 ， 其 集群 都 有 多 个 类 似 的 管道 。 
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图 4-1: 用 定期 运行 的 批 处 理 作 业 来 实现 应 用 程序 的 持续 性 。 数 据 被 持续 地 分 割 为 
文件 (如 以 一 小 时 为 单位 ) ;然后 ， 批 处 理 作业 将 文件 作为 输入 ， 以 此 达到 持续 处 
理 数据 的 效果 


这 种 架构 完全 可 行 ， 但 是 存在 以 下 问题 。 


。 太 多 独立 的 部 分 。 为 了 计算 数据 中 的 事件 数 ， 这 种 架构 动用 了 太 多 系统 。 

每 一 个 系统 都 有 学 习 成 本 和 管理 成 本 ， 还 可 能 存在 bug。 

对 时 间 的 处 理 方法 不 明确 。 假 设 需要 改 为 每 30 分 钟 计数 一 次 。 这 个 变动 

涉及 工作 流 调度 逻辑 (而 不 是 应 用 程序 代码 逻辑 )， 从 而 使 DevOps 问题 

与 业务 需求 混淆 。 

。 预警 。 假 设 除 了 每 小 时 计数 一 次 外 , 还 需要 尽 可 能 早 地 收 到 计数 预警 ( 比 
如 在 事件 数 超过 10 时 预警 )。 为 了 做 到 这 一 点 ， 可 以 在 定期 运行 的 批 
处 理 作 业 之 外 ， 引 入 Storm 来 采集 消息 流 (Kafka 或 者 MapR Streams ) 。 
Storm 实时 提供 近似 的 计数 ， 批 处 理 作 业 每 小 时 提供 准确 的 计数 。 但 是 
这 样 一 来 ， 就 向 架构 增加 了 一 个 系统 ， 以 及 与 之 相关 的 新 编程 模型 。 上 
述 架 构 叫 作 Lambda 架构 ， 如 图 4-2 所 示 。 第 1 章 有 过 简要 的 介绍 。 
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图 4-2: Lambda 架构 用 定期 运行 的 批 处 理 作 业 来 实现 应 用 程序 的 持续 性 ， 并 通过 流 
处 理 器 获得 预警 。 流 处 理 器 实时 提供 近似 结果 ;， 批 处 理 层 最 终 会 对 近似 结果 予以 纠正 


。 乱 序 事件 流 。 在 现实 世界 中 ， 大 多 数 事件 流 都 是 乱 序 的 ， 即 事件 的 实际 
发 生 顺 序 〈 事 件数 据 在 生成 时 被 附 上 时 间 惟 ， 如 智能 手机 记录 下 用 户 登 
录 应 用 程序 的 时 间 ) 和 数据 中 心 所 记录 的 顺序 不 一 样 。 这 意味 着 本 属于 
前 一 批 的 事件 可 能 被 错误 地 归 入 当前 一 批 。 批 处 理 架 构 很 难 解决 这 个 问 
题 ， 大 部 分 人 则 选择 忽视 它 。 

。 批 处 理 作 业 的 界限 不 清晰 。 在 该 架构 中 ,“ 每 小 时 ”的 定义 含糊 不 清 ， 分 
割 时 间 点 实际 上 取决 于 不 同系 统 之 间 的 交互 。 充 甚 量 也 只 能 做 到 大 约 每 
小 时 分 割 一 次 ， 而 在 分 割 时 间 点 前 后 的 事件 既 可 能 被 归 和 前 一 批 ， 也 可 
能 被 归 入 当前 一 批 。 将 数据 流 以 小 时 为 单位 进行 分 割 ， 实 际 上 是 最 简单 
的 方法 。 假 设 需要 根据 产生 数据 的 时 间 段 (如 从 用 户 登录 到 退出 ) 生成 
聚合 结果 ， 而 不 是 简单 地 以 小 时 为 单位 分 割 数据 ， 则 用 如 图 4-1 和 图 4-2 
所 示 的 架构 无 法 直接 满足 需求 。 
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4.2 采用 流 处 理 架 构 计 数 

当然 有 更 好 的 办 法 来 对 事件 流 进行 计数 。 如 你 所 想 ， 计 数 是 流 处 理 用 例 ， 
上 一 节 只 是 使 用 定期 运行 的 批 处 理 作业 来 模拟 流 处 理 。 此 外 ， 必 须 把 各 种 
系统 午 合 在 一 起 。 图 4-3 展示 了 采用 流 处 理 架构 的 应 用 程序 模型 。 


图 4-3: 通过 流 处 理 架构 实现 应 用 程序 的 持续 性 。 水 平 圆柱 体 表示 消息 传输 系统 
(Kafka 或 MapR Streams)。 消 息 传输 系统 为 负责 处 理 所 有 数据 的 流 处 理 器 (在 本 
例 中 是 Flink) 提供 流 数 据 ， 产 生 的 结果 既是 实时 的 ， 也 是 正确 的 


事件 流 由 消息 传输 系统 提供 ， 并 且 只 被 单一 的 Flink 作业 处 理 ， 从 而 以 小 
时 为 单位 计数 和 预警 〈 后 者 可 选 )。 这 种 方法 直接 解决 了 上 一 节 提 到 的 所 有 
问题 。Flink 作业 的 速度 减 慢 或 者 吞吐 量 激增 只 会 导致 事件 在 消息 传输 系统 
中 堆积 。 以 时 间 为 单位 把 事件 流 分 割 为 一 批 批 任务 〈 称 作 富 口 )， 这 种 逻辑 
完全 航 入 在 Flink 程序 的 应 用 逻辑 中 。 预 警 由 同一 个 程序 生成 ， 乱 序 事件 由 
Flink 自行 处 理 。 要 从 以 固定 时 间 分 组 改 为 根据 产生 数据 的 时 间 段 分 组 ， 只 
需 在 Flink 程序 中 修改 对 窗口 的 定义 即 可 。 此 外 ， 如 果 应 用 程序 的 代码 有 过 
改动 ， 只 需 重播 Kafka 主题 ， 即 可 重播 应 用 程序 。 采 用 流 处 理 架构 ， 可 以 
大 幅 减 少 需要 学 习 、 管 理 和 编写 代码 的 系统 。Flink 应 用 程序 用 来 计数 的 代 
码 非常 简单 ， 如 下 所 示 。 
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DataStream<LogEvent> stream = env 
// 通过 Kafka 生 成 数据 流 
.addSource(new FlinkKafkaConsumer(...)) 
// 分 组 
.keyBy("country") 
// 将 时 间 窗 口 设 为 6 分 钟 
.timeWindow(Time.minutes(60)) 
// 针对 每 个 时 间 窗 口 进行 操作 


.apply(new CountPerWindowFunction()); 
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流 处 理 区 别 于 批 处 理 最 主要 的 两 点 是 : 流 即 是 流 ， 不 必 人 为 地 将 它 分 割 为 
文件 ， 时 间 的 定义 被 明确 地 写 入 应 用 程序 代码 (如 以 上 代码 的 时 间 窗 口 )， 
而 不 是 与 摄取 、 计 算 和 调度 等 过 程 牵扯 不 清 。 


流 处 理 系统 中 的 批 处 理 

第 1 章 讨论 过 微 批 处 理 ， 它 是 介 于 流 处 理 和 批 处 理 之 间 的 方法 。 实 际 上 ， 
微 批 处 理 的 含义 取决 于 具体 情况 。 从 某 种 角度 来 说 ， 图 4-1 中 的 批 处 理 架构 
也 可 以 称 为 微 批 处 理 架构 ， 前 提 是 文件 足够 小 。 












































Storm Trident 是 这 样 实现 微 批 处 理 的 : 它 先 创建 一 个 大 的 Storm 事件 ， 其 
中 包含 固定 数量 的 子 事件 ， 然 后 将 这 些 聚 合 在 一 起 的 子 事件 用 持续 运行 的 
Storm 拓扑 处 理 。Spark Streaming 的 微 批 处 理 架构 和 批 处 理 架 构 本 质 上 是 一 
致 的 ， 只 不 过 对 用 户 隐藏 了 前 两 步 〈 摄 取 和 存储 )， 并 将 每 份 微 批 数据 用 预 
写 日 志 ( 而 不 是 文件 ) 的 形式 存储 在 内 存 中 。 包 括 Flink 在 内 的 所 有 现代 
流 处 理 器 在 内 部 都 使 用 了 某 种 形式 的 微 批 处 理 技术 ， 在 shuffle 阶段 将 含有 
多 个 事件 的 缓冲 容器 通过 网 络 发 送 ， 而 不 是 发 送 单 个 事件 。 这 些 形式 各 不 





































































































































































































































































































需要 说 明 的 是 ， 流 处 理 系统 中 的 批 处 理 必须 符合 以 下 两 点 要 求 。 






































。 批 处 理 只 作为 提高 系统 性 能 的 机 制 。 批 量 越 大 ， 系 统 的 吞吐 量 就 越 大 。 

为 了 提高 性 能 而 使 用 的 批 处 理 必须 完全 独立 于 定义 窗口 时 所 用 的 缓冲 ， 
或 者 为 了 保证 容错 性 而 提交 的 代码 ， 也 不 能 作为 API 的 一 部 分 。 否 则 ， 
系统 将 受到 限制 ， 并 且 变 得 脆弱 且 难 以 使 用 。 


应 用 程序 开发 人 员 和 数据 处 理 系 统 的 用 户 不 需要 考虑 系统 是 否 可 以 执行 微 
批 处 理 以 及 如 何 执 行 ， 而 是 需要 考虑 系统 是 否 可 以 处 理 乱 序 事件 流 以 及 不 
一 致 的 窗口 ， 是 否 可 以 在 提供 准确 的 聚合 结果 之 外 还 提供 预警 ， 以 及 是 否 
可 以 准确 地 重播 历史 数据 ， 还 需要 考虑 系统 的 性 能 特征 〈 低 延迟 和 高 知 
十 )， 以 及 如 何在 发 生 故 障 时 保证 系统 持续 运行 。 
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4.3 时 间 概 念 


在 流 处 理 中 ， 主 要 有 两 个 时 间 概 念 '。 


。 事件 时 间 ， 即 事件 实际 发 生 的 时 间 。 更 准确 地 说 ， 每 一 个 事件 都 有 一 个 
与 它 相 关 的 时 间 稚 ， 并 且 时 间 翼 是 数据 记录 的 一 部 分 (比如 手机 或 者 服 








务 器 的 记录 )。 事 件 时 间 甚 实 就 是 时 间 惟 。 














。 处 理 时 间 ， 即 事件 被 处 理 的 时 间 。 处 理 时 间 其 实 就 是 处 理事 件 的 机 器 所 


测量 的 时 间 。 























图 4-4 说 明了 事件 时 间 和 处 理 时 间 的 区 别 。 
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图 4-4: 事件 时 间 顺 序 与 处 理 时 间 顺 序 不 一 致 的 乱 序 事件 流 


以 《星球 大 战 》 系 列 电影 为 例 。 首 先 上 映 的 3 部 电影 是 该 系列 中 的 第 4、5、 
6 部 (这 是 事件 时 间 )， 它 们 的 上 映 年 份 分 别 是 1977 年 、1980 年 和 1983 年 
(这 是 处 理 时间 )。 之 后 按 事件 时 间 上 映 的 第 1、2、3、7 部 ， 对 应 的 处 理 时 
间 分 别 是 1999 年 、2002 年 、2005 年 和 2015 年 。 由 此 可 见 ， 事 件 流 的 顺序 





尾 





可 能 是 乱 的 (尽管 年 份 顺序 一 般 不 会 乱 )。 





注 1: 本 章 涉及 的 许多 想法 都 是 由 Google Dataflow 团队 ( 即 现 在 的 Apache Beam 




















队 ) 


提出 的 。 团 队 成 员 包括 Tyler Akidau 和 Frances Perry 等 人 。 如 果 想 了 解 更 多 关于 
Dataflow 模型 的 内 容 ， 请 参考 Tyler Akidau 的 文章 Streaming 101 和 Streaming 102。 
Flink 处 理 时 间 和 窗口 的 机 制 很 大 程度 上 来 源 于 Tyler Akidau 等 人 所 著 的 关于 Dataflow 




















模型 的 论文 。 





通常 还 有 第 3 个 时 间 概 念 ， 即 摄取 时 间 ， 也 叫 作 进入 时 间 。 它 指 的 是 事件 
进入 流 处 理 框 架 的 时 间 。 和 缺乏 真实 事件 时 间 的 数据 会 被 流 处 理 器 附 上 时 间 
稚 ， 即 流 处 理 器 第 一 次 看 到 它 的 时 间 (这 个 操作 由 source 函数 完成 ， 它 是 
程序 的 第 一 个 处 理 节 点 )。 


在 现实 世界 中 ， 许 多 因素 (如 连接 暂时 中 断 ， 不 同 原因 导致 的 网 络 延迟 ， 
分 布 式 系统 中 的 时 钟 不 同步 ， 数 据 速率 陡 增 ， 物 理 原 因 ， 或 者 运气 差 ) 使 
得 事件 时 间 和 处 理 时 间 存在 偏差 〈 即 事件 时 间 偏 差 )。 事 件 时 间 顺 序 和 处 理 
时 间 顺 序 通 常 不 一 致 ， 这 意味 着 事件 以 乱 序 到 达 流 处 理 器 。 
























































根据 应 用 程序 的 不 同 ， 两 个 时 间 概 念 都 很 有 用 。 有 些 应 用 程序 (如 一 些 预 
警 应 用 程序 ) 需要 尽 可 能 快 地 得 到 结果 ， 即 使 有 小 的 误差 也 没关系 。 它 们 
不 必 等 待 迟 到 的 事件 ， 因 此 适合 采用 处 理 时 间 语 义 。 甚 他 一 些 应 用 程序 
(如 欺诈 检测 系统 或 者 账单 系统 ) 则 对 准确 性 有 要 求 : 只 有 在 时 间 窗 口内 发 
生 的 事件 才能 被 算 进来 。 对 于 这 些 应 用 程序 来 说 ， 事 件 时 间 语 义 才 是 正确 的 
选择 。 也 有 两 者 都 采用 的 情况 ， 比 如 既 要 准确 地 计数 ， 又 要 提供 异常 预警 。 















































Flink 允许 用 户 根据 所 需 的 语义 和 对 准确 性 的 要 求 选择 采用 事 
件 时 间 、 处 理 时 间或 摄取 时 间 定 义 窗口 。 








当 采 用 事件 时 间 定义 窗口 时 ， 应 用 程序 可 以 处 理 乱 序 事件 流 以 及 变化 的 事 
F 时 间 偏 差 ， 并 根据 事件 实际 发 生 的 时 间 计算 出 有 意义 的 结果 。 














EF 





4.4 窗口 

4.1 节 举例 说 明了 如 何在 Flink 中 定义 时 间 窗 口 并 以 小 时 为 单位 生成 聚合 结 
果 。 窗 口 是 一 种 机 制 ， 它 用 于 将 许多 事件 按照 时 间或 者 其 他 特征 分 组 ， 从 
而 将 每 一 组 作为 整体 进行 分 析 (比如 求 和 )。 

















4.4.1 时 间 窗 口 
时 间 窗 口 是 最 简单 和 最 有 用 的 一 种 窗口 。 它 支持 滚动 和 滑动 。 举 一 个 例子 ， 
假设 要 对 传感器 输出 的 数值 求 和 。 
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一 分 钟 滚动 窗口 收集 最 近 一 分 钟 的 数值 ， 并 在 一 分 钟 结束 时 输出 总 和 ， 如 


图 4-5 所 示 。 
丛生 > (]9, 6, 8, 4, 7, 3, 8, 4, 2, 1, 3, 2 
滚动 窗口 一 > | 9, 6, 8, 4,|| 7, 3, 8, 4,|| 2, 1, 3, 2 
一 > 27 22 8 


输出 





























4-5: 一 分 钟 滚动 窗口 计算 最 近 一 分 钟 的 数值 总 和 


一 分 钟 滑动 窗口 计算 最 近 一 分 钟 的 数值 总 和 ， 但 每 半分 钟 滑动 一 次 并 输出 
结果 ， 如 图 4-6 所 示 。 








89 一 >|j 9 6, 8, 4, 7, 3, 8, 4, 2, 1, 3, 2 


滑动 窗口 一 > | 9，6，8，4， 


8 


4-6: 一 分 钟 滑动 窗口 每 半分 钟 计算 一 次 最 近 一 分 钟 的 数值 总 和 











输出 一 > 27 22 22 15 

















第 一 个 滑动 窗口 对 9、6、8 和 4 求 和 ， 得 到 27。 半 分 钟 后 ， 窗 口 滑动 ， 然 
后 对 8、4、7 和 3 求 和 ， 得 到 22， 照 此 类 推 。 









































在 Flink 中 ， 一 分 钟 滚动 窗口 的 定义 如 下 。 


stream.timeWindow(Time.minutes(1)) 
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每 半分 钟 ( 即 30 秒 ) 滑动 一 次 的 一 分 钟 滑动 窗口 如 下 所 示 。 


stream.timeWindow(Time.minutes(1), Time.seconds(30)) 


4.4.2 ”计数 窗口 

Flink 支持 的 另 一 种 常见 窗口 叫 作 计数 窗口 。 采 用 计数 窗口 时 ， 分 组 依据 不 
再 是 时 间 惟 ， 而 是 元 素 的 数量 。 例 如 ， 图 4-6 中 的 滑动 窗口 也 可 以 解释 为 由 
4 个 元 素 组 成 的 计数 窗口 ， 并 且 每 两 个 元 素 请 动 一 次 。 庐 动 和 请 动 的 计数 窗 
口 分 别 定义 如 下 。 








stream.countWindow(4) 
stream.countWindow(4, 2) 


虽然 计数 窗口 有 用 ， 但 是 其 定义 不 如 时 间 窗 口 严谨 ， 因 此 要 谨慎 使 用 。 时 
间 不 会 停止 ,而 且 时 间 窗 口 总 会 “关闭 ”。 但 就 计数 窗口 而 言 ,假设 其 定义 
的 元 素数 量 为 100， 而 某 个 key 对 应 的 元 素 永远 达 不 到 100 个 ， 那 么 窗口 就 
永远 不 会 关闭 ， 被 该 窗口 占用 的 内 存 也 就 浪费 了 。 一 种 解决 办 法 是 用 时 间 
窗口 来 触发 超时 ，4.4.4 节 会 详细 介绍 。 





4.4.3 会 话 窗口 

Flink 支持 的 另 一 种 很 有 用 的 窗口 是 会 话 窗口 。 第 3 章 提 到 过 这 个 概念 。 会 
话 指 的 是 活动 阶段 ， 其 前 后 都 是 非 活 动 阶段 ， 例 如 用 户 与 网 站 进行 一 系列 
交互 (活动 阶段 ) 之后， 关闭 浏览 器 或 者 不 再 交互 ( 非 活 动 阶段 )。 会 话 需 
要 有 自己 的 处 理 机 制 ， 因 为 它们 通常 没有 固定 的 持续 时 间 (有 些 30 秒 就 结 
束 了 ， 有 些 则 长 达 一 小 时 ) ， 或 者 没有 固定 的 交互 次 数 (有 些 可 能 是 3 次 点 
击 后 购买 ， 另 一 些 可 能 是 40 次 点 击 却 没 有 购买 )。 





























Flink 是 目前 唯一 ”支持 会 话 窗口 的 开源 流 处 理 器 。 











在 Flink 中 ， 会 话 窗 口 由 超时 时 间 设 定 ， 即 希望 等 待 多 和 久 才 认 为 会 话 已 经 结 








注 2: 作者 在 此 处 描述 的 是 2016 年 的 情况 。 目 前 ，Apache Beam 和 Apache Spark 也 支持 
会 话 窗 口 。 一 一 译 者 注 
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束 。 举 例 来 说 ， 以 下 代码 表示 ， 如 果 用 户 处 于 非 活动 状态 长 达 5 分 钟 ， 则 
认为 会 话 结束 。 


stream.window(SessionWindows.withGap(Time.minutes(5)) 


4.4.4 触发 器 

除了 窗口 之 外 ，Flink 还 提供 触发 机 制 。 触 发 器 控制 生成 结果 的 时 间 ， 即 何 
时 聚合 窗口 内 容 并 将 结果 返回 给 用 户 。 每 一 个 默认 窗口 都 有 一 个 触发 器 。 
例如 ， 采 用 事件 时 间 的 时 间 窗 口 将 在 收 到 水 印 时 被 触发 。 对 于 用 户 来 说 ， 
除了 收 到 水 印 时 生成 完整 、 准 确 的 结果 之 外 ， 也 可 以 实现 自 定义 的 触发 器 
(例如 每 秒 提供 一 次 近似 结果 )。 















































4.4.5 ”窗口 的 实现 
在 Flink 内 部 ， 所 有 类 型 的 窗口 都 由 同一 种 机 制 实现 。 虽 然 实现 细节 对 于 普 
通用 户 来 说 并 不 重要 ， 但 是 仍然 需要 注意 以 下 两 点 。 











。 开 窗 机 制 与 检查 点 机 制 (第 5 章 将 详细 讨论 ) 完全 分 离 。 这 意味 着 窗口 
时 长 不 依赖 于 检查 点 间隔 。 事 实 上 ， 窗 口 完 全 可 以 没有 “时 长 ”( 比 如 上 
文中 的 计数 窗口 和 会 话 窗口 的 例子 )。 

。 高 级 用 户 可 以 直接 用 基本 的 开 窗 机 制定 义 更 复杂 的 窗口 形式 〈 如 某 种 时 
间 窗 口 ， 它 可 以 基于 计数 结果 或 某 一 条 记录 的 值 生成 中 间 结 果 ) 。 

















Lo) 2 
4.5 ”时空 穿 梭 
流 处 理 架 构 的 一 个 核心 能 力 是 时 空 穿 梭 。 如 果 所 有 的 数据 处 理工 作 都 由 流 
处 理 器 完成 ， 那 么 应 用 程序 如 何 演进 呢 ? 我 们 如 何 处 理 历史 数据 ， 又 如 何 
重新 处 理 数据 呢 ? (假设 出 于 调试 或 者 审计 的 目的 ， 需 要 重新 处 理 数据 。) 


















































如 图 4-7 所 示 ， 时 空 穿梭 意味 着 将 数据 流 倒 回 至 过 去 的 某 个 时 间 ， 重 新 启动 
处 理 程序 ， 直 到 处 理 至 当前 时 间 为 止 。 像 Kafka 和 MapR Streams 这 样 的 现 
代 传 输 层 ， 支 持 时 空 穿 梭 ， 这 使 得 它们 与 更 早 的 解决 方案 有 所 区 别 。 实 时 
流 处 理 总 是 在 处 理 最 近 的 数据 ( 即 图 中 “当前 时 间 ” 的 数据 )， 历 史 流 处 理 
则 从 过 去 开始 ， 并 且 可 以 一 直 处 理 至 当前 时 间 。 
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图 4-7: 流 处 理 架构 拥有 时 空 穿梭 ( 即 重新 处 理 数据 ) 的 能 力 。 流 处 理 器 支持 事件 时 间 ， 
这 意味 着 将 数据 流 “ 倒 带 ”， 用 同一 组 数据 重新 运行 同样 的 程序 ， 会 得 到 相同 的 结果 


若 要 按时 间 回 溯 并 正确 地 重新 处 理 数 据 ， 流 处 理 器 必须 支持 
事件 时 间 。 






































如 果 窗 口 的 设 定 是 根据 系统 时 间 而 不 是 时 间 戳 ， 那 么 每 次 运行 同样 的 程序 ， 
都 会 得 到 不 同 的 结果 。 事 件 时 间 使 数据 处 理 结果 具有 确定 性 ， 因 为 用 同一 
组 数据 运行 同样 的 程序 ， 会 得 到 相同 的 结果 。 










































































4.6 水 印 


支持 事件 时 间 对 于 流 处 理 架 构 而 言 至 关 重要 ， 因 为 事件 时 间 能 保证 结果 正 
确 ， 并 使 流 处 理 架 构 拥 有 重新 处 理 数 据 的 能 力 。 当 计算 基于 事件 时 间 时 ， 
如 何 判断 所 有 事件 是 否 都 到 达 ， 以 及 何 时 计算 和 输出 窗口 的 结果 呢 ? 换 言 
之 ， 如 何 追 踪 事 件 时 间 ， 并 知晓 输入 数据 已 经 流 到 某 个 事件 时 间 了 呢 ? 为 
了 追踪 事件 时 间 ， 需 要 依靠 由 数据 驱动 的 时 钟 ， 而 不 是 系统 时 钟 。 


以 图 4-5 中 的 一 分 钟 滚动 窗口 为 例 。 假 设 第 一 个 窗口 从 10:00:00 开始 〈 即 
从 10 时 0 分 0 秒 开 始 )， 需 要 计算 从 10:00:00 到 10:01:00 的 数值 总 和 。 当 
时 间 就 是 记录 的 一 部 分 时 ， 我 们 怎么 知道 10:01:00 已 到 呢 ? 换 句 话说 ， 我 
们 怎么 知道 盖 有 时 间 惟 10:00:59 的 元 素 还 没 到 呢 ? 
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Flink 通过 水 印 来 推进 事件 时 间 。 水 印 是 嵌 在 流 中 的 常规 记录 ， 计 算 程 序 通 
过 水 印 获知 某 个 时 间 点 已 到 。 对 于 上 述 一 分 钟 滚动 窗口 ， 假 设 水 印 标记 时 
间 为 10:01:00 (或 者 其 他 时 间 ， 如 10:03:43) ， 那 么 收 到 水 印 的 窗口 就 知道 
不 会 再 有 早 于 该 时 间 的 记录 出 现 ， 因 为 所 有 时 间 惟 小 于 或 等 于 该 时 间 的 事 
件 都 已 经 到 达 。 这 时 ， 窗 口 可 以 安全 地 计算 并 给 出 结果 (总 和 )。 水 印 使 事 
件 时 间 与 处 理 时 间 完全 无 关 。 述 到 的 水 印 (“迟到 ”是 从 处 理 时间 的 角度 而 
言 ) 并 不 会 影响 结果 的 正确 性 ， 而 只 会 影响 收 到 结果 的 速度 。 


水 印 是 如 何 生成 的 

在 Flink 中 ， 水 印 由 应 用 程序 开发 人 员 生 成 ， 这 通常 需要 对 相应 的 领域 有 
一 定 的 了 解 。 完 美的 水 印 永远 不 会 错 : 时 间 惟 小 于 水 印 标记 时 间 的 事件 不 
会 再 出 现 。 在 特殊 情况 下 (例如 非 乱 序 事件 流 )， 最 近 一 次 事件 的 时 间 玲 就 
可 能 是 完美 的 水 印 。 启 发 式 水 印 则 相反 ， 它 只 估计 时 间 ， 因 此 有 可 能 出 错 ， 
即 迟 到 的 事件 〈 其 时 间 惟 小 于 水 印 标记 时 间 ) 晚 于 水 印 出 现 。 针 对 启发 式 
水 印 ，Flink 提供 了 处 理 迟 到 元 素 的 机 制 。 


设 定 水 印 通常 需要 用 到 领域 知识 。 举 例 来 说 ， 如 果 知 道 事件 的 迟到 时 间 不 
会 超过 5 秒 ， 就 可 以 将 水 印 标记 时 间 设 为 收 到 的 最 大 时 间 戳 减 去 5 秒 。 另 
一 种 做 法 是 ， 采 用 一 个 Flink 作业 监控 事件 流 ， 学 习 事 件 的 迟到 规律 ， 并 以 
此 构建 水 印 生成 模型 。 







































































水 印 为 以 事件 时 间 说 明 输入 数据 的 完整 性 提供 了 一 种 机 制 ， 
这 种 机 制 可 能 是 启发 式 的 。 








如 果 水 印 迟 到 得 太 和 久 ， 收 到 结果 的 速度 可 能 就 会 很 慢 ， 解 决 办 法 是 在 水 印 
到 达 之 前 输出 近似 结果 (Flink 可 以 实现 )。 如 果 水 印 到 达 得 太 早 ， 则 可 能 
收 到 错误 结果 ， 不 过 Flink 处 理 迟 到 数据 的 机 制 可 以 解决 这 个 问题 。 上 述 问 
题 看 起 来 很 复杂 ， 但 是 恰恰 符合 现实 世界 的 规律 一 一 大 部 分 真实 的 事件 流 
都 是 乱 序 的 ， 并 且 通 常 无 法 了 解 它们 的 乱 序 程度 (因为 理论 上 不 能 预见 未 
来 )。 水 印 是 唯一 让 我 们 直面 乱 序 事件 流 并 保证 正确 性 的 机 制 ， 否 则 只 能 选 
择 忽视 事实 ， 假 装 错误 的 结果 是 正确 的 。 
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4.7 ”真实 案例 : 爱立信 公司 的 Kappa 架 构 


考虑 到 由 爱立信 公司 提供 技术 支持 的 运营 商 通 常 拥 有 庞大 的 数据 规模 (每 天 
处 理 10TB~100TB 的 数据 ， 每 秒 处 理 10 万 ~100 万 个 事件 )， 该 公司 的 一 支 
团队 决定 实现 所 谓 的 Kappa 架构 ，*。2014 年 ，Kafka 的 创始 人 之 一 Jay Kreps 
为 O'Reilly Radar 撰写 了 一 篇 批评 Lambda 架构 的 文章 4， 并 在 其 中 开玩笑 式 
地 创造 了 “Kappa 架构 ”这 个 词 。 其 实 ，Kappa 架构 正 是 第 2 章 所 讨论 的 流 
处 理 架 构 。 其 中 ， 数 据 流 是 设计 核心 ， 数据 源 不 可 变更 ， 架 构 采 用 像 Flink 
这 样 的 单一 流 分析 框 架 处 理 新 鲜 数 据 ， 并 通过 流 重播 处 理 历史 数据 。 




























































































爱立信 公司 需要 实时 分 析 云 基础 设施 的 系统 性 能 指标 和 日 志 ， 从 而 持续 地 
监视 系统 行为 ， 以 确定 是 一 切 正常 ， 还 是 有 “新 奇 点 ”出 现 。“ 新 奇 点 ” 既 
可 能 是 异常 行为 ， 也 可 能 是 系统 状态 变更 ， 例 如 加 入 了 新 虚拟 机 。 爱 立信 
团队 使 用 的 方法 是 将 一 个 贝 叶 斯 在 线 学 习 模 型 应 用 于 包含 电信 云 监 控 系统 
多 个 指标 的 数据 流 〈 遥 测 信息 和 日 志 事件 )。 妥 立信 公司 的 研究 人 员 Nicolas 
Seyvet 和 Ignacio Mulas Viela 说 道 : 

















该 架构 在 不 断 地 适应 (学习 ) 新 系统 常态 的 同时 ， 能 够 快速 且 准 
确 地 发 现 异 常 。 这 使 它 成 为 理想 工具 ， 并 能 够 极 大 地 降低 因 大 型 
计算 设施 运行 而 产生 的 维护 成 本 。 





图 4-8 展示 了 爱立信 团队 构建 的 数据 管道 。 












Elasticsearch 


图 4-8: 爱立信 团队 采用 的 基于 Flink 的 流 处 理 架构 























注 3: 本 节 内 容 基 于 Nicolas Seyvet 和 Ignacio Mulas Viela 在 Strata + Hadoop World London 
2016 研讨 会 上 所 做 的 演讲 。Ignacio Mulas Viela 在 2015 年 的 Flink Forward 研讨 会 
上 也 做 过 相关 的 演讲 。 


注 4: https://www.oreilly.com/ideas/questioning-the-lambda-architecture 
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推送 给 Kafka 的 原始 数据 是 来 自 云 基础 设施 中 的 所 有 实体 机 和 虚拟 机 的 遥 
测 信息 和 日 志 事件 。 它 们 经 过 不 同 的 Flink 作业 消费 之 后 ， 被 写 回 Kafka 主 
题 里 ， 然 后 再 从 Kafka 主题 里 被 推送 给 搜索 引擎 Elasticsearch 和 可 视 化 系统 
Kibana。 这 种 架构 让 每 个 Flink 作业 所 执行 的 任务 有 清晰 的 定义 ， 一 个 作业 
的 输出 可 以 成 为 另 一 个 作业 的 输入 。 图 4-9 展示 了 异常 检测 管道 ， 每 个 中 间 
流 都 是 Kafka 主题 (以 分 配给 它 的 数据 命名 ) ， 每 个 长 方形 代表 一 个 Flink 
作业 。 

















统计 信息 
提取 器 










贝 叶 斯 
异常 检测 

















图 4-9; 爱立信 公司 的 异常 检测 管道 采用 Flink 实现 统计 信息 提取 和 异常 检测 








在 本 案例 中 ， 为 什么 Flink 对 事件 时 间 的 支持 很 重要 呢 ?” 有 两 个 原因 。 




















(1) 有 助 于 准确 地 识别 异常 。 时 间 对 识别 异常 很 重要 。 当 许多 日 志 事件 在 同 
一 时 间 出 现时 ， 通 常 说 明 可 能 有 错误 发 生 。 为 了 将 这 些 事件 正确 地 分 组 
和 归 类 ， 考 虑 它们 的 真实 时 间 (而 不 是 处 理 时间 ) 很 重要 。 

(2) 有 助 于 采用 流 处 理 架 构 。 在 流 处 理 架 构 中 ， 所 有 的 计算 都 由 流 处 理 器 完 
成 。 升 级 应 用 程序 的 做 法 是 将 它们 在 流 处 理 器 中 再 次 执行 。 用 同一 种 计 
算 运 行 两 次 同样 的 数据 ， 必 须 得 到 同样 的 结果 ， 这 只 有 依靠 事件 时 间 操 
作 才 能 实现 。 
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有 状态 的 计算 





流 式 计算 分 为 无 状态 和 有 状态 两 种 情况 。 无 状态 的 计算 观察 每 个 独立 事件 ， 
并 根据 最 后 一 个 事件 输出 结果 。 例 如 ， 流 处 理应 用 程序 从 传感器 接收 温度 
读数 ， 并 在 温度 超过 90 度 时 发 出 警告 。 有 状态 的 计算 则 会 基于 多 个 事件 输 
出 结果 。 以 下 是 一 些 例 子 。 


。 第 4 音 讨 论 的 所 有 类 型 的 窗口 。 例 如 ， 计 算 过 去 一 小 时 的 平均 温度 ， 就 
是 有 状态 的 计算 。 

。 所 有 用 于 复杂 事件 处 理 的 状态 机 。 例 如 ， 若 在 一 分 钟 内 收 到 两 个 相差 20 
度 以 上 的 温度 读数 ， 则 发 出 警告 ， 这 是 有 状态 的 计算 。 

。 流 与 流 之 间 的 所 有 关联 操作 ， 以 及 流 与 静态 表 或 动态 表 之 间 的 关联 操作 ， 
都 是 有 状态 的 计算 。 


图 5-1 展示 了 无 状态 流 处 理 和 有 状态 流 处 理 的 主要 区 别 。 无 状态 流 处 理 分 别 
接收 每 条 记录 (图 中 的 黑 条 )， 然 后 根据 最 新 输入 的 记录 生成 输出 记录 ( 
条 )。 有 状态 流 处 理会 维护 状态 (根据 每 条 输入 记录 进行 更 新 )， 并 基于 最 
新 输入 的 记录 和 当前 的 状态 值 生 成 输出 记录 ( 灰 条 )。 
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图 5-1; 无 状态 流 处 理 与 有 状态 流 处 理 的 区 别 。 输 入 记录 由 黑 条 表示 。 无 状态 流 处 
理 每 次 只 转换 一 条 输入 记录 ， 并 且 仅 根据 最 新 的 输入 记录 输出 结果 (白条 )。 有 状态 
流 处 理 维护 所 有 已 处 理 记 录 的 状态 值 ， 并 根据 每 条 新 输入 的 记录 更 新 状态 ， 因 此 输 
出 记录 ( 灰 条 ) 反映 的 是 综合 考虑 多 个 事件 之 后 的 结果 


尽管 无 状态 的 计算 很 重要 ， 但 是 流 处 理 对 有 状态 的 计算 更 感 兴趣 。 事 实 上 ， 
正确 地 实现 有 状态 的 计算 比 实现 无 状态 的 计算 难得 多 。 旧 的 流 处 理 系统 并 
不 支持 有 状态 的 计算 ， 而 新 一 代 的 流 处 理 系统 则 将 状态 及 其 正确 性 视 为 重 
中 之 重 。 


5.1 一 致 性 
当 在 分 布 式 系统 中 引入 状态 时 ， 自 然 也 引入 了 一 致 性 问题 。 一 致 性 实际 上 
是 “正确 性 级 别 ” 的 另 一 种 说 法 ， 即 在 成 功 处 理 故 障 并 恢复 之 后 得 到 的 结 

果 ， 与 没有 发 生 任何 故障 时 得 到 的 结果 相 比 ， 前 者 有 多 正确 ? 举例 来 说 ， 
假设 要 对 最 近 一 小 时 登录 的 用 户 计 数 。 在 系统 经 历 故 障 之 后 ， 计 数 结果 是 
多 少 ? 在 流 处 理 中 ， 一 致 性 分 为 3 个 级 别 。 


。 at-most-once: 这 其 实 是 没有 正确 性 保障 的 委婉 说 法 一 一 故障 发 生 之 后 ， 
计数 结果 可 能 丢失 。 

。 at-least-once: 这 表示 计数 结果 可 能 大 于 正确 值 ， 但 绝 不 会 小 于 正确 值 。 
也 就 是 说 ， 计 数 程序 在 发 生 故 障 后 可 能 多 算 ， 但 是 绝 不 会 少 算 。 










































































。 exactly-once: 这 指 的 是 系统 保证 在 发 生 故 障 后 得 到 的 计数 结果 与 正确 值 
一 致 。 


曾经 ，at-least-once 非常 流行 。 第 一 代 流 处 理 器 (如 Storm 和 Samza) 刚 问 
世 时 只 保证 at-least-once， 原 因 有 二 。 








(D 保证 exactly-once 的 系统 实现 起 来 更 复杂 。 这 在 基础 架构 层 (决定 什么 
代表 正确 ， 以 及 exactly-once 的 范围 是 什么 ) 和 实现 层 都 很 有 挑战 性 。 

(2) 流 处 理 系统 的 早期 用 户 愿 意 接受 框架 的 局 限 性 ， 并 在 应 用 层 想 办 法 弥补 
(例如 使 应 用 程序 具有 竹 等 性 ， 或 者 用 批量 计算 层 再 做 一 遍 计算 )。 























最 先 保证 exactly-once 的 系统 (Storm Trident 和 Spark Streaming) 在 性 能 和 
表现 力 这 两 个 方面 付出 了 很 大 的 代价 。 为 了 保证 exactly-once， 这 些 系统 无 
法 单独 地 对 每 条 记录 运用 应 用 逻辑 ， 而 是 同时 处 理 多 条 (一 批 ) 记录 ， 保 
证 对 每 一 批 的 处 理 要 么 全 部 成 功 ， 要 么 全 部 失败 。 这 就 导致 在 得 到 结果 前 ， 
必须 等 待 一 批 记录 处 理 结束 。 因 此 ， 用 户 经 常 不 得 不 使 用 两 个 流 处 理 框 架 
(一 个 用 来 保证 exactly-once， 另 一 个 用 来 对 每 个 元 素 做 低 延 迟 处 理 )， 结 果 
使 基础 设施 更 加 复杂 。 曾 经 ， 用 户 不 得 不 在 保证 exactly-once 与 获得 低 延 迟 
和 效率 之 间 权 衡 利 棘 。Flink 避免 了 这 种 权衡 。 









































Flink 的 一 个 重大 价值 在 于 ， 它 既 保证 了 exactly-once， 也 有 具 有 
低 延 迟 和 高 吞吐 的 处 理 能 力 。 








从 根本 上 说 ，Flink 通过 使 自身 满足 所 有 需求 来 避免 权衡 ， 它 是 业界 的 一 次 
意义 重大 的 技术 飞跃 。 尽 管 这 在 外 行 看 来 很 神奇 ， 但 是 一 旦 了 解 ， 就 会 优 
然 大 悟 。 


5.2 检查 点 : 保证 exactly-once 


Flink 如 何 保证 exactly-once 呢 ? 它 使 用 一 种 被 称 为 “检查 点 ”的 特性 ， 在 
出 现 故障 时 将 系统 重 置 回 正确 状态 。 下 面 通 过 简单 的 类 比 来 解释 检查 点 的 
作用 。 




















假设 你 和 两 位 朋友 正在 数 项 链 上 有 多 少 颗 珠子 ， 如 图 5-2 所 示 。 你 捏 住 珠 
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子 ， 边 数 边 拨 ， 每 拨 过 一 颗 珠子 就 给 总 数 加 一 。 你 的 朋友 也 这 样 数 他 们 手 
中 的 珠子 。 当 你 分 神 忘 记 数 到 哪里 时 ， 怎 么 办 呢 ? 如 果 项 链 上 有 很 多 珠子 ， 
你 显然 不 想 从 头 再 数 一 遍 ， 尤 其 是 当 三 人 的 速度 不 一 样 却 又 试图 合作 的 时 
候 ， 更 是 如 此 〈 比 如 想 记录 前 一 分 钟 三 人 一 共 数 了 多 少 颗 珠子 ， 回 想 一 下 
第 4 章 中 的 一 分 钟 滚动 窗口 )。 

















图 5-2: 数 环 状 项 链 上 的 珠子 看 上 去 毫 无 意义 (甚至 有 些 徒劳 无 功 ， 因 为 可 以 永 不 
停 欣 地 计数 )， 但 是 它 可 以 用 来 很 好 地 类 比 处 理 永 不 结束 的 事件 流 。 在 某 些 文化 中 ， 
人 们 仍旧 将 数 珠子 视 作 消磨 时 间 的 好 方法 


于 是 ， 你 想 了 一 个 更 好 的 办 法 : 在 项 链 上 每 隔 一 段 就 松 松 地 系 上 一 根 有 色 
皮 筋 ， 将 珠子 分 隔 开 ， 当 珠子 被 拨 动 的 时 候 ， 皮 筋 也 可 以 被 拨 动 ， 然 后 ， 
你 安排 一 个 助手 ， 让 他 在 你 和 朋友 拨 到 皮 筋 时 记录 总 数 。 用 这 种 方法 ， 当 
有 人 数 错时 ， 就 不 必 从 头 开始 数 。 相 反 ， 你 向 其 他 人 发 出 错误 警示 ， 然 后 
你 们 都 从 上 一 根 皮 筋 处 开始 重 数 ， 助 手 则 会 告诉 每 个 人 重 数 时 的 起 始 数 值 ， 
例如 在 粉色 皮 筋 处 的 数值 是 多 少 。 


Flink 检查 点 的 作用 就 类 似 于 皮 筋 标记 。 数 珠子 这 个 类 比 的 关键 点 是 : 对 于 
指定 的 皮 筋 而 言 ， 珠 子 的 相对 位 置 是 确定 的 ， 这 让 皮 筋 成 为 重新 计数 的 参 
考点 。 总 状态 (珠子 的 总 数 ) 在 每 颗 珠子 被 拨 动 之 后 更 新 一 次 ， 助 手 则 会 





保存 与 每 根 皮 筋 对 应 的 检查 点 状态 ， 如 当 遇 到 粉色 皮 筋 时 一 共 数 了 多 少 珠 
子 ， 当 遇 到 柳 色 皮 筋 时 又 是 多 少 。 当 问题 出 现时 ， 这 种 方法 使 得 重新 计数 


A 
变 得 简单 。 








检查 点 是 Flink 最 有 价值 的 创新 之 一 ， 因 为 它 使 Flink 可 以 保 
证 exactly-once， 并 且 不 需要 牺牲 性 能 。 
































Flink 检查 点 的 核心 作用 是 确保 状态 正确 ， 即 使 遇 到 程序 中 断 ， 也 要 正确 。 
记 住 这 一 基本 点 之 后 ， 我 们 用 一 个 例子 来 看 检查 点 是 如 何 运 行 的 。Flink 为 
用 户 提 供 了 用 来 定义 状态 的 工具 。 例 如 ， 以 下 这 个 Scala 程序 按照 输入 记录 
的 第 一 个 字段 (一 个 字符 串 ) 进行 分 组 并 维护 第 二 个 字段 的 计数 状态 。 





val stream: DataStream[(String, Int)] = ... 


val counts: DataStream[(String, Int)] = stream 
.keyBy(record => record._1) 
.mapWithState((in: (String, Int), count: Option[Int]) => 
count match { 
case Some(c) => ( (in. 1, c + in. 2), Some(c + in. 2) ) 
case None => ( (in._1, in. 2), Some(in. 2) ) 


}) 


该 程序 有 两 个 算 子 : keyBy 算 子 用 来 将 记录 按照 第 一 个 元 素 (一 个 字符 串 ) 
进行 分 组 ， 根 据 该 key 将 数据 进行 重新 分 区 ， 然 后 将 记录 再 发 送 给 下 一 个 
算 子 ， 有 状态 的 map 算 子 (mapwithstate)。map 算 子 在 接收 到 每 个 元 素 后 ， 
将 输入 记录 的 第 二 个 字段 的 数据 加 到 现 有 总 数 中 ， 再 将 更 新 过 的 元 素 发 
射出 去 。 图 5-3 表示 程序 的 初始 状态 : 输入 流 中 的 6 条 记录 被 检查 点 屏障 
(checkpoint barrier) 隔 开 ， 所 有 的 map 算 子 状态 均 为 0 (计数 还 未 开始 )。 
所 有 key 为 a 的 记录 将 被 顶层 的 map 算 子 处 理 ， 所 有 key 为 b 的 记录 将 被 中 
间 层 的 map 算 子 处 理 ， 所 有 key 为 c 的 记录 则 将 被 底层 的 map 算 子 处 理 。 
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图 5-3: 程序 的 初始 状态 。 注 意 ，a、b、c 三 组 的 初始 计数 状态 都 是 0， 即 三 人 


柱 上 的 值 。ckpt 表示 检查 点 屏障 。 每 条 记录 在 处 理 顺序 上 严格 地 遵守 在 检查 点 之 前 
或 之 后 的 规定 ， 例 如 ["b",2] 在 检查 点 之 前 被 处 理 ，["a",2] 则 在 检查 点 之 后 被 处 理 














当 该 程序 处 理 输 入 流 中 的 6 条 记录 时 ， 涉 及 的 操作 遍布 3 个 并 行 实例 〈 节 
点 、CPU 内 核 等 )。 那 么 ， 检 查 点 该 如 何 保证 exactly-once 呢 ? 








检查 点 屏障 和 普通 记录 类 似 。 它 们 由 算 子 处 理 ， 但 并 不 参与 计算 ， 而 是 会 
触发 与 检查 点 相关 的 行为 。 当 读 取 输入 流 的 数据 源 (在 本 例 中 与 keyBy 算 
子 内 联 ) 遇 到 检查 点 屏障 时 ， 它 将 其 在 输入 流 中 的 位 置 保 存 到 稳定 存储 中 。 
如 果 输 入 流 来 自 消息 传输 系统 (Kafka 或 MapR Streams) ， 这 个 位 置 就 是 偏 
移 量 。Flink 的 存储 机 制 是 插件 化 的 ， 稳 定 存储 可 以 是 分 布 式 文件 系统 ， 如 
HDFS、S3 或 MapR-FS。 图 5-4 展示 了 这 个 过 程 。 
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\ 保存 检查 点 屏障 在 
NW 输入 流 中 的 位 置 








稳定 存储 











5-4: 当 Flink 数据 源 (在 本 例 中 与 keyBy 算 子 内 联 ) 遇 到 检查 点 屏障 时 ， 它 会 将 
其 在 输入 流 中 的 位 置 保存 到 稳定 存储 中 。 这 让 Flink 可 以 根据 该 位 置 重启 输入 


检查 点 屏障 像 普通 记录 一 样 在 算 子 之 间 流动 。 当 map 算 子 处 理 完 前 3 条 记录 
并 收 到 检查 点 屏障 时 ， 它 们 会 将 状态 以 异步 的 方式 写 入 稳定 存储 ， 如 图 5-5 
所 示 。 
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图 5-5: 位 于 检查 点 之 前 的 所 有 记录 (["b",2]、["b",3] 和 ["c ,和 ) 被 map 算 子 处 理 之 
后 的 情况 。 此 时 ， 稳 定 存储 已 经 备份 了 检查 点 屏障 在 输入 流 中 的 位 置 (备份 操作 发 
生 在 检查 点 屏障 被 输入 算 子 处 理 的 时 候 ) 。map 算 子 接着 开始 处 理 检查 点 屏障 ， 并 触 
发 将 状态 异步 备份 到 稳定 存储 中 这 个 动作 


当 map 算 子 的 状态 备份 和 检查 点 屏障 的 位 置 备份 被 确认 之 后 ， 该 检查 点 操 
作 就 可 以 被 标记 为 完成 ， 如 图 5-6 所 示 。 我 们 在 无 须 停止 或 者 阻 断 计 算 的 
条 件 下 ， 在 一 个 逻辑 时 间 点 (对 应 检查 点 屏障 在 输入 流 中 的 位 置 ) 为 计算 
状态 拍 了 快照 。 通 过 确保 备份 的 状态 和 位 置 指 向 同一 个 逻辑 时 间 点 ， 后 文 
将 解释 如 何 基于 备份 恢复 计算 ， 从 而 保证 exactly-once。 值 得 注意 的 是 ， 当 
没有 出 现 故障 时 ，Flink 检查 点 的 开销 极 小 ， 检 查 点 操作 的 速度 由 稳定 存储 
的 可 用 带宽 决定 。 回 顾 数 珠子 的 例子 : 除了 因为 数 错 而 需要 用 到 皮 筋 之 外 ， 
皮 筋 会 被 很 快 地 拨 过 。(Flink 的 开发 团队 正在 研究 如 何 只 保存 状态 的 变化 ， 
而 不 保存 状态 的 值 ， 这 样 做 可 以 让 开销 变 得 更 小 。) 
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图 5-6: 检查 点 操作 完成 ， 状 态 和 位 置 均 已 备份 到 稳定 存储 中 。 输 入 流 中 的 所 有 记 
录 都 已 处 理 完成 。 值 得 注意 的 是 ， 备 份 的 状态 值 与 实际 的 状态 值 是 不 同 的 。 备 份 反 
映 的 是 检查 点 的 状态 


如 果 检 查 点 操作 失败 ，Flink 会 丢弃 该 检查 点 并 继续 正常 执行 ， 因 为 之 后 的 
某 一 个 检查 点 可 能 会 成 功 。 虽 然 恢 复 时 间 可 能 更 长 ， 但 是 对 于 状态 的 保证 
依旧 很 有 力 。 只 有 在 一 系列 连续 的 检查 点 操作 失败 之 后 ，Flink 才 会 抛 出 错 
误 ， 因 为 这 通常 预示 着 发 生 了 严重 且 持 久 的 错误 。 


























现在 来 看 看 图 5-7 所 示 的 情况 : 检查 点 操作 已 经 完成 ， 但 故障 紧 随 其 后 。 























有 状态 的 计算 | 57 




















图 5-7: 故障 紧 跟 检查 点 ， 导 致 最 底部 的 实例 丢失 
在 这 种 情况 下 ，Flink 会 重新 拓扑 〈 可 能 会 获取 新 的 执行 资源 ) ， 将 输入 流 
倒 回 到 上 一 个 检查 点 ， 然 后 恢复 状态 值 并 从 该 处 开始 继续 计算 。 在 本 例 中 ， 
["a",2]、["a",2] 和 ["c",2] 这 几 条 记录 将 被 重播 。 





























图 5-8 展示 了 这 一 重新 处 理 过 程 。 从 上 一 个 检查 点 开始 重新 计算 ， 可 以 保 
证 在 剩 下 的 记录 被 处 理 之 后 ， 得 到 的 map 算 子 的 状态 值 与 没有 发 生 故 障 
时 的 状态 值 一 致 。 值 得 注意 的 是 ， 输 出 流 会 舍 有 重复 的 数据 。 具 体 来 说 ， 
["a",2]、["a",4] 和 ["c",3] 会 出 现 两 次 。 如 果 Flink 将 输出 流 写 入 特殊 的 输出 
系统 (比如 文件 系统 或 者 数据 库 )， 那 么 就 可 以 避免 这 个 问题 ， 本 章 稍 后 将 
进一步 讨论 。 
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5-8; Flink 将 输入 流 倒 回 到 上 一 个 检查 点 屏障 的 位 置 ， 同 时 恢复 map 算 子 的 状态 值 。 


然后 ，Flink 从 此 处 开始 重新 处 理 。 这 样 做 保证 了 在 记录 被 处 理 之 后 ，map 算 子 的 状 
态 值 与 没有 发 生 故 障 时 的 一 致 


Flink 检查 点 算法 的 正式 名 称 是 异步 屏障 快照 (asynchronous barrier snapshotting)。 
该 算法 大 致 基于 Chandy-Lamport 分 布 式 快照 算法 。 


5.3 保存 点 : 状态 版 本 控制 


检查 点 由 Flink 自动 生成 ， 用 来 在 故障 发 生 时 重新 处 理 记录 ， 从 而 修正 状 
态 。Flink 用 户 还 可 以 通过 另 一 个 特性 有 意识 地 管理 状态 版 本 ， 这 个 特性 叫 
作 保 存 点 (savepoint)。 
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保存 点 与 检查 点 的 工作 方式 完全 相同 ， 只 不 过 它 由 用 户 通过 Flink 命令 行 工 
具 或 者 Web 控制 台 手 动 触发 ， 而 不 由 Flink 自动 触发 。 和 检查 点 一 样 ， 保 
存 点 也 被 保存 在 稳定 存储 中 。 用 户 可 以 从 保存 点 重启 作业 ， 而 不 用 从 头 开 
始 。 保 存 点 可 以 被 视 为 作业 在 某 一 个 特定 时 间 点 的 快照 《该 时 间 点 即 为 保 
存 点 被 触发 的 时 间 点 )。 


对 保存 点 的 另 一 种 理解 是 ， 它 在 明确 的 时 间 点 保存 应 用 程序 状态 的 版 本 。 
这 和 用 版 本 控制 系统 保存 应 用 程序 的 版 本 很 相似 。 最 简单 的 例子 是 在 不 修 
改 应 用 程序 代码 的 情况 下 ， 每 隔 固定 的 时 间 拍 快照 ， 即 照 原 样 保存 应 用 程 
序 状态 的 版 本 ， 如 图 5-9 所 示 。 
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图 5-9: 手动 触发 的 保存 点 (以 圆圈 表示 ) 在 不 同时 间 捕 获 正 在 运行 的 Flink 应 用 程 
序 的 状态 


在 图 中 ，v.0 是 某 应 用 程序 的 一 个 正在 和 运行 的 版 本 。 我 们 分 别 在 二 时 刻 和 六 
时 刻 触 发 了 保存 点 。 因 此 ， 可 以 在 任何 时 候 返 回 到 这 两 个 时 间 点 ， 并 且 重 
启程 序 。 更 重要 的 是 ， 可 以 从 保存 点 启动 被 修改 过 的 程序 版 本 。 举 例 来 说 ， 
可 以 修改 应 用 程序 的 代码 (假设 称 新 版 本 为 v.1)， 然 后 从 4 时刻 开始 运行 
改动 过 的 代码 。 这 样 一 来 ，v.0 和 v.1 这 两 个 版 本 同时 运行 ， 并 在 之 后 的 时 
间 里 获取 各 自 的 保存 点 ， 如 图 5-10 所 示 。 
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图 5-10: 使 用 保存 点 更 新 Flink 应 用 程序 的 版 本 。 新 版 本 可 以 从 旧版 本 生成 的 一 个 
保存 点 处 开始 执行 


保存 点 可 用 于 应 对 流 处 理 作业 在 生产 环境 中 过 到 的 许多 挑战 。 


(1) 应 用 程序 代码 升级 : 假设 你 在 已 经 处 于 运行 状态 的 应 用 程序 中 发 现 了 一 
个 bug， 并 且 希 望 之 后 的 事件 都 可 以 用 修复 后 的 新 版 本 来 处 理 。 通 过 触 
发 保存 点 并 从 该 保存 点 处 运行 新 版 本 ， 下 游 的 应 用 程序 并 不 会 察觉 到 不 
同 (当然 ， 被 更 新 的 部 分 除外 )。 

(2) Flink 版 本 更 新 : Flink 自身 的 更 新 也 变 得 简单 ， 因 为 可 以 针对 正在 运行 
的 任务 触发 保存 点 ， 并 从 保存 点 处 用 新 版 本 的 Flink 重启 任务 。 

(3) 维护 和 迁移 : 使 用 保存 点 ， 可 以 轻松 地 “暂停 和 恢复 ”应 用 程序 。 这 对 
于 集群 维护 以 及 向 新 集群 迁移 的 作业 来 说 尤其 有 用 。 此 外 ， 它 还 有 利于 
开发 、 测 试 和 调试 ， 因 为 不 需要 重播 整个 事件 流 。 

(4) 假设 模拟 与 恢复 : 在 可 控 的 点 上 运行 其 他 的 应 用 逻辑 ， 以 模拟 假设 的 场 
景 ， 这 样 做 在 很 多 时 候 非 常 有 用 。 

(5) A/B 测试 : 从 同一 个 保存 点 开始 ， 并 行 地 运行 应 用 程序 的 两 个 版 本 ， 有 
助 于 进行 A/B 测试 。 






























































上 述 所 有 挑战 都 真实 存在 。Flink 内 部 的 检查 点 机 制 以 保存 点 的 形式 呈现 给 
用 户 ， 用 来 应 对 上 述 挑战 。 这 反映 了 Flink 检查 点 本 质 上 是 一 个 可 持续 升 
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级 状态 版 本 的 可 编程 机 制 ， 这 一 点 很 像 具 有 多 版 本 并 发 控制 的 数据 库 系统 。 
下 一 市 在 讨论 如 何 提 供 端 到 端的 一 致 性 时 ， 还 会 提 到 检查 点 机 制 的 这 一 基 
本 特征 。 


5.4” 端 到 端的 一 致 性 和 作为 数据 库 的 流 
处 理 器 


我 们 已 经 通过 简单 的 计数 例子 了 解 了 Flink 如 何 保 证 状态 的 一 致 性 ( 即 保证 
exactly-once) 。 接 下 来 看 看 端 到 端的 情况 ， 因 为 在 生产 环境 中 可 能 会 部 署 这 
种 应 用 程序 (如 图 5-11 所 示 ) 。 
























































5-11: 在 该 应 用 程序 架构 中 ， 有 状态 的 Flink 应 用 程序 消费 来 自 消息 队列 的 数据 ， 
然后 将 数据 写 入 输出 系统 ， 以 供 查询 。 底 部 的 详情 图 展示 了 Flink 应 用 程序 的 内 部 情况 
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输入 数据 来 自 一 个 分 区 存储 系统 (如 Kafka 或 者 MapR Streams 这 样 的 消 
息 队 列 )。 图 5-11 底部 的 详情 图 展示 了 Flink 拓扑 ， 其 中 包含 3 个 算 子 。 
source 读 取 输 入 数据 ， 根 据 key 分 区 ， 并 将 数据 路 由 到 有 状态 的 算 子 实例 
(这 既 可 以 是 5.2 节 提 到 的 map 算 子 ， 也 可 以 是 窗口 聚合 算 子 )。 有 状态 的 算 
子 将 状态 内 容 〈 比 如 前 例 中 的 计数 结果 ) 或 者 一 些 衍 生 结果 写 入 sink， 再 
由 sink 将 结果 传送 到 输出 存储 系统 中 〈 例 如 文件 系统 或 数据 库 )。 接 着 ， 查 
询 服务 (比如 数据 库 查 询 API) 就 可 以 允许 用 户 对 状态 进行 查询 (最 简单 
的 例子 就 是 查询 计数 结果 ) ， 因 为 状态 已 经 被 写 入 输出 存储 系统 了 。 












































需要 记 住 的 是 ， 在 本 例 中 ， 输 出 反映 的 是 截至 最 近 一 次 写 人 
状态 之 时 ，Flink 应 用 程序 中 的 状态 内 容 。 





在 将 状态 内 容 传 送 到 输出 存储 系统 的 过 程 中 ， 如 何 保证 exactly-once 呢 ? 这 
叫 作 端 到 端的 一 致 性 。 本 质 上 有 两 种 实现 方法 ， 用 哪 一 种 方法 则 取决 于 输 
出 存储 系统 的 类 型 ， 以 及 应 用 程序 的 需求 。 


(D 第 一 种 方法 是 在 sink 环节 缓冲 所 有 输出 ， 并 在 sink 收 到 检查 点 记录 时 ， 
将 输出 “原子 提交 ”到 存储 系统 。 这 种 方法 保证 输出 存储 系统 中 只 存在 
有 一 致 性 保障 的 结果 ， 并 且 不 会 出 现 重 复 的 数据 。 从 本 质 上 说 ， 输 出 存 
储 系统 会 参与 Flink 的 检查 点 操作 。 要 做 到 这 一 点 ， 输 出 存储 系统 需要 
具备 “原子 提交 ”的 能 力 。 

(2) 第 二 种 方法 是 急切 地 将 数据 写 入 输出 存储 系统 ， 同 时 牢记 这 些 数据 可 能 
是 “ 脏 ” 的 ， 而 且 需 要 在 发 生 故 障 时 重新 处 理 。 如 果 发 生 故 障 ， 就 需要 将 
输出 、 输 入 和 Flink 作业 全 部 回 深 ， 从 而 将 “ 脏 ” 数 据 覆 盖 ， 并 将 已 经 写 
入 输出 的 “ 脏 ” 数 据 删除 。 注 意 ， 在 很 多 情况 下 ， 其 实 并 没有 发 生 删除 
操作 。 例 如 ， 如 果 新 记录 只 是 覆盖 旧 纪 录 (而 不 是 添加 到 输出 中 )， 那 么 
“ 脏 ” 数 据 只 在 检查 点 之 间 短 暂 存 在 ， 并 且 最 终 会 被 修正 过 的 新 数据 覆盖 。 


值得 注意 的 是 ， 这 两 种 方法 恰好 对 应 关系 数据 库 系 统 中 的 两 种 为 人 所 熟知 的 
事务 隔离 级 别 ， 已 提交 读 (read committed) 和 未 提交 读 (read uncommitted)。 
已 提交 读 保证 所 有 读 取 (查询 输出 ) 都 只 读 取 已 提交 的 数据 ， 而 不 会 读 取 
中 间 、 传 输 中 或 “ 脏 ” 的 数据 。 之 后 的 读 取 可 能 会 返回 不 同 的 结果 ， 因 为 
数据 可 能 已 被 改变 。 未 提交 读 则 允许 读 取 “ 脏 ” 数 据 ， 换 名 话说， 查询 总 
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是 看 到 被 处 理 过 的 最 新 版 本 的 数据 。 

某 些 应 用 程序 可 以 接受 弱 一 点 的 语义 ， 所 以 Flink 提供 了 支持 多 重 语义 的 多 
种 内 置 输出 算 子 ， 如 支持 未 提交 读 语义 的 分 布 式 文件 输出 算 子 。 用 户 可 以 
根据 输出 存储 系统 的 能 力 和 应 用 程序 的 需求 选择 合适 的 语义 。 














根据 输出 存储 系统 的 类 型 ，Flink 及 与 之 对 应 的 连接 器 可 以 一 起 保证 端 到 端 
的 一 致 性 ， 并 且 支 持 多 种 隔离 级 别 。 

















现在 回 过 头 看 看 图 5-11 中 的 应 用 程序 架构 。 之 所 以 本 例 需 要 有 输出 存储 系 
统 ， 是 因为 外 部 无 法 访问 Flink 的 内 部 状态 ， 所 以 输出 存储 系统 成 了 查询 目 
标 。 但 是 ， 如 果 可 以 直接 查询 状态 ， 则 在 某 些 情况 下 根本 就 不 需要 输出 存 
储 系统 ， 因 为 状态 本 身 就 已 经 包含 了 查询 所 需 的 信息 。 这 种 情况 在 许多 应 
用 程序 中 真实 存在 ， 直 接 查询 状态 可 以 大 大 地 简化 架构 ， 同 时 大 幅 提 升 性 
能 ， 如 图 5-12 所 示 。 

















查询 服务 

















图 5-12: 利用 Flink 的 可 查询 状态 特性 可 以 简化 应 用 程序 架构 。 对 于 状态 本 身 就 是 
所 需 信息 的 查询 来 说 ， 直 接 查 询 状态 可 以 提升 性 能 


Flink 社区 正 致力 于 完善 可 查询 状态 特性 。Flink 提供 一 个 查询 API， 通 过 
该 API 可 以 对 Flink 发 出 查询 请 求 ， 然 后 得 到 当前 的 状态 值 。 从 某 种 意义 上 
说 ， 在 有 限 的 情景 下 ，Flink 可 以 替代 数据 库 ， 并 同时 提供 写 路 径 〈 输 入 流 
不 断 更 新 状态 ) 和 读 路 径 (可 查询 状态 )。 尽 管 这 对 于 许多 应 用 程序 都 行 得 
通 ,但 可 查询 状态 受到 的 限制 还 是 比 通用 数据 库 大 得 多 。 
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5.5 Flink 的 性 能 


Flink 的 性 能 测试 基于 Yahoo! Streaming Benchmark 及 其 一 系列 变 体 进行 。 


5.5.1 Yahool Streaming Benchmark 

2015 年 12 月 , Yahoo! 的 Storm 团队 发 表 了 一 篇 博客 文章 ', 并 在 其 中 展示 了 
Storm、Flink 和 Spark Streaming 的 性 能 测试 结果 。 该 测试 对 于 业界 而 言 极 
具 价 值 ， 因 为 它 古 流 处 理 领 域 的 第 一 个 基于 真实 应 用 程序 的 基准 测试 。 






































该 应 用 程序 从 Kafka 消费 广告 曝光 消息 ， 从 Redis 查找 每 个 广告 对 应 的 广 
告 宣传 活动 ， 并 按照 广告 宣传 活动 分 组 ， 以 10 秒 为 窗口 计算 广告 浏览 量 。 
10 秒 窗口 的 最 终结 果 被 存储 在 Redis 中 ， 这 些 窗 口 的 状态 也 按照 每 秒 记 录 
一 次 的 频率 被 写 入 Redis， 以 方便 用 户 对 它们 进行 实时 查询 。 在 最 初 的 性 能 
测评 中 ， 因 为 Storm 是 无 状态 流 处 理 器 〈 即 它 不 能 定义 和 维护 状态 ) ， 所 以 
Flink 作业 也 按照 无 状态 模式 编写 。 所 有 状态 都 被 存储 在 Redis 中 ， 如 图 5-13 
所 示 。 
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5-13:; Yahool Streaming Benchmark 所 采用 的 作业 。 被 测试 的 流 处 理 器 有 Storm、 
Flink 和 Spark Streaming (本 图 中 只 有 Flink 的 logo) 





注 1: https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation- 


engines-at 
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图 5-14 展示 了 测试 结果 。 
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5-14: Yahool Streaming Benchmark 的 结果 。 横 轴 表 示 每 秒 的 事件 吞吐 量 ， 以 
千 为 单位 。 纵 轴 表 示 端 到 端的 99 百 分 位 数 延 迟 〈( 即 99% 的 事件 在 延迟 时 间 段 内 到 
达 ) ， 以 秒 为 单位 。 详 见 博客 文章 Benchmarking Streaming Computation Engines 
al Yahoo!” 








如 图 5-14 所 示 ， 在 性 能 测评 中 ，Spark Streaming 遇 到 了 吞吐 量 和 延迟 性 难 
两 全 的 问题 。 随 着 批 处 理 作业 规模 的 增加 ， 延 迟 升 高 。 如 果 为 了 降低 延迟 
而 缩减 规模 ， 吞 吐 量 就 会 减少 。Storm 和 Flink 则 可 以 在 吞吐 量 增 加 时 维持 
低 延 迟 。 
































为 了 进一步 测试 Flink 的 性 能 ， 测 试 人 员 设 置 了 一 系列 不 同 的 场景 ， 并 逐步 
测试 。 
































5.5.2 ”变化 1: 使 用 Flink 状 态 

最 初 的 性 能 测评 专注 于 在 相对 较 低 的 吞吐 量 下 ， 测 量 端 到 端的 延迟 ， 即 
使 在 极限 状态 下 ， 也 不 关注 容错 性 。 此 外 ， 应 用 程序 中 的 key 基数 非常 小 
(100)， 这 使 得 测试 结果 无 法 反映 用 户 量 大 的 情况 ， 或 者 key 空间 随 着 时 间 











注 2: https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation- 


engines-at 





大 
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增长 的 情况 (如 tweet)。2016 年 2 月 ，data Artisans 的 博客 发 表 了 一 篇 文 
章 *， 对 Yahoo! Streaming Benchmark 进行 了 拓展 ， 并 专注 于 解决 上 述 问题 。 
由 于 最 初 的 测试 结果 显示 Spark Streaming 的 性 能 欠 佳 ， 因 此 这 次 的 测试 对 
象 只 有 Storm 和 Flink， 它 们 在 最 初 的 测试 中 有 着 类 似 的 表现 。 














第 1 个 变化 是 利用 Flink 提供 的 状态 容错 特性 重新 实现 应 用 程序 ， 如 图 5-15 
所 示 。 这 使 得 应 用 程序 能 保证 exactly-once。 





























5-15: 重新 实现 的 应 用 程序 利用 了 Flink 内 置 的 状态 机 制 ， 并 且 可 以 保持 每 秒 
300 万 事件 的 吞吐 量 ， 同 时 保证 exactly-once。 此 时 ， 应 用 程序 的 瓶颈 在 于 Flink 集 
群 与 Kafka 集群 的 连接 〈 图 中 以 粗 箭头 表示 ) 


5.5.3 变化 2: 改进 数据 生成 器 并 增加 吞吐 量 
第 2 个 变化 是 通过 用 每 秒 可 以 生成 数 百 万 事件 的 数据 生成 器 来 增加 输入 流 
的 数据 量 。 结 果 如 图 5-16 所 示 。 











注 3: https://data-artisans.com/blog/extending-the-yahoo-streaming-benchmark 
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Storm 与 Kafka 


Flink 与 Kafka 
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5-16: 使 用 高 吞吐 数据 生成 器 的 结果 : (A) 当 Storm 与 Kafka 一 起 使 用 时 ， 应 
用 程序 可 以 保持 每 秒 40 万 事件 的 处 理 速度 ， 并 且 瓶 颈 在 于 CPU; 当 Flink 与 Kafka 
一 起 使 用 时 ， 应 用 程序 可 以 保持 每 秒 300 万 事件 的 处 理 速度 ， 并 且 瓶 颈 在 于 网 络 ; 
(B) 当 消 除 网 络 瓶颈 时 ，Flink 应 用 程序 可 以 保持 每 秒 1500 万 事件 的 处 理 速 度 ; 
(C) 在 额外 的 测试 中 ， 消 息 队列 由 MapR Streams 提供 ， 并 且 采 用 10 个 高 性 能 网 
络 节点 (硬件 与 前 两 种 情况 中 的 不 同 ) ，Flink 应 用 程序 可 以 保持 每 秒 1000 万 事件 
的 处 理 速度 


























Storm 能 够 承受 每 秒 40 万 事件 ， 但 受 限于 CPU，Flink 则 可 以 达到 每 秒 300 
万 事件 (7.5 倍 ) ， 但 受 限 于 Kafka 集群 和 Flink 集群 之 间 的 网 络 。 








5.5.4 变化 3: 消除 网 络 瓶颈 

为 了 看 看 在 没有 网 络 瓶颈 问题 时 Flink 的 性 能 如 何 ， 我 们 将 数据 生成 器 移 到 
Flink 应 用 程序 的 内 部 。 图 5-17 展示 了 这 个 流程 。 在 这 样 的 条 件 下 ，Flink 
可 以 保持 每 秒 1500 万 事件 的 处 理 速度 (这 是 Storm 的 37.5 倍 ) ， 如 图 5-16 
所 示 。 将 数据 生成 器 整合 到 Flink 应 用 程序 中 ， 可 以 测试 性 能 极限 ， 但 这 种 
做 法 并 不 现实 ， 因 为 现实 世界 中 的 数据 必须 从 应 用 程序 的 外 部 流入 。 
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数据 解析 / 窗口 /聚合 “| 查询 
生成 过 滤 / ' 


转换 | 


5-17: 通过 将 数据 生成 器 整合 到 Flink 应 用 程序 中 ， 可 以 消除 网 络 瓶颈 ， 并 且 使 
系统 支撑 每 秒 1500 万 事件 的 吞吐 量 。 在 增加 key 基数 之 后 ， 瓶 颈 又 转移 到 每 秒 对 
Redis 的 写 入 上 。 该 测试 并 不 符合 生产 环境 的 配置 ， 它 的 目的 是 测试 Flink 的 极限 














Pe 





直 得 注意 的 是 ， 这 绝对 不 是 Kafka 的 极限 (Kafka 可 以 支撑 比 这 更 大 的 吞 
吐 量 )， 而 仅仅 是 测试 所 用 的 硬件 环境 的 极限 一 一 Kafka 集群 和 Flink 集群 
之 间 的 网 络 连接 大 慢 。 























5.5.5 变化 4: 使 用 MapR Streams 


另 一 种 避免 网 络 瓶 颈 并 测试 Flink 性 能 的 方法 是 使 用 MapR Streams。 在 另 一 
个 测试 中 ， 同 样 的 Flink 应 用 程序 通过 MapR Streams 接收 数据 。 


使 用 MapR Streams 之 后 ， 流 处 理 被 整合 进 整个 平台 ， 从 而 使 得 Flink 可 以 
与 数据 生成 任务 和 数据 传输 任务 一 起 运行 ， 这 样 就 避免 了 连接 Kafka 集群 
和 Flink 集群 时 遇 到 的 大 部 分 问题 。 在 这 种 高 性 能 配置 和 更 快 的 网 络 硬 件 环 
席 下 ，Flink 能 够 支撑 每 秒 1000 万 事件 的 处 理 速度 。 











5.5.6 ”变化 5: 增加 key 基 数 

最 后 一 个 变化 是 增加 key 基数 (广告 宣传 活动 的 数量 )。 在 最 初 的 测试 中 ， 
key 基数 只 有 100。 这 些 key 每 秒 都 会 被 写 入 Redis， 以 供 查询 。 当 key 基数 
增加 到 100 万 时 ， 系 统 的 整体 吞吐 量 减 少 到 每 秒 28 万 事件 ， 因 为 向 Redis 
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写 入 成 了 系统 瓶颈 。 使 用 Flink 可 查询 状态 的 一 个 早期 原型 (如 图 5-18 所 
示 )， 可 以 消除 这 种 瓶颈 ， 使 系统 的 处 理 速度 恢复 到 每 秒 1500 万 事件 ， 并 
且 有 100 万 个 key 可 供 查询 ， 如 图 5-19 所 示 。 






































5-18: 为 key 基数 较 大 的 场景 消除 系统 瓶颈 








100 个 key 








100 万 个 key 
100 万 个 key 
可 查询 状态 
0 Ss 10 15 
每 秒 事件 数 











( 百 万 ) 





5-19: 通过 将 查询 功能 移入 Flink 可 查询 状态 的 一 个 原型 ， 系 统 甚至 可 以 在 key 
基数 非常 大 的 情况 下 仍然 维持 每 秒 1500 万 事件 的 处 理 速度 





本 例 说 明了 什么 呢 ? 通过 避免 流 处 理 
能 力 ， 可 以 使 吞吐 量 达 到 Storm 的 











瓶颈 ， 同 时 利用 Flink 的 有 状态 流 处 理 
30 倍 左右 ， 同 时 还 能 保证 exactly-once 


和 高 可 用 性 。 大 致 来 说 ， 这 意味 着 与 Storm 相 比 ，Flink 的 硬件 成 本 或 云 计 
算 成 本 仅 为 前 者 的 130， 同 样 的 硬件 能 处 理 的 数据 量 则 是 前 者 的 30 倍 。 





5.6 结论 
在 本 章 中 ， 我 们 看 到 有 状态 的 流 处 班 








如 何 改变 了 游戏 规则 。 通 过 Flink 的 检 


查 点 机 制 ， 能 够 同时 实现 容错 、 高 吞吐 和 低 延 迟 。 这 完全 避免 了 人 们 曾经 
认为 无 法 避免 的 权衡 ， 并 体现 了 Flink 最 重要 的 一 个 优势 。 


Flink 的 另 一 个 优势 是 ， 它 用 同一 种 技术 实现 流 处 理 和 批 处 理 ， 因 此 完全 不 








必 再 建 一 个 批 处 理 层 。 第 6 章 将 简 述 Flink 如 何 实现 批 处 理 。 
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第 6 和 章 


批 处 理 ， 一 种 特殊 的 流 处 理 





到 目前 为 止 ， 本 书 讨论 的 都 是 无 限 流 处 理 ， 即 从 某 个 时 间 点 开始 ， 持 续 不 
停 地 处 理 数 据 ， 如 图 6-1 所 示 。 











无 限 流 处 理 














图 6-1: 无 限 流 处 理 : 输入 数据 没有 尽头 ， 数 据 处 理 从 当前 或 者 过 去 的 某 一 个 时 间 
点 开始 ， 持 续 不 停 地 进行 


另 一 种 处 理 形 式 叫 作 有 限 流 处 理 ， 即 从 某 一 个 时 间 点 开始 处 理 数 据 ， 然 后 
在 另 一 个 时 间 点 结束 ， 如 图 6-2 所 示 。 输 入 数据 可 能 本 身 是 有 限 的 〈 即 输入 
数据 集 并 不 会 随 着 时 间 增 长 )， 也 可 能 出 于 分 析 的 目的 被 人 为 地 设 定 为 有 限 
集 〈 即 只 分 析 某 一 个 时 间 段 内 的 事件 )。 
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有 限 流 处 理 

















图 6-2: 有 限 流 处 理 : 输入 数据 有 头 有 尾 ， 数据 处 理 在 一 段 时 间 后 停止 


显然 ， 有限 流 处 理 是 无 限 流 处 理 的 一 种 特殊 情况 ， 它 只 不 过 在 茶 个 时 间 点 
停止 而 已 。 此 外 ， 如 果 计 算 结 果 不 在 执行 过 程 中 连续 生成 ， 而 仅 在 末尾 处 
生成 一 次 ， 那 就 是 批 处 理 (分 批 处 理 数据 )。 
























































批 处 理 是 流 处 理 的 一 种 非常 特殊 的 情况 。 在 流 处 理 中 ， 我 们 为 数据 定义 清 
动 窗口 或 滚动 窗口 ， 并 且 在 每 次 窗口 滑动 或 滚动 时 生成 结果 。 批 处 理 则 不 
同 ， 我 们 定义 一 个 全 局 窗口 ， 所 有 的 记录 都 属于 同一 个 窗口 。 举 例 来 说 ， 
以 下 代码 表示 一 个 简单 的 Flink 程序 ， 它 负责 每 小 时 对 某 网 站 的 访问 者 计 
数 ， 并 按照 地 区 分 组 。 
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val counts = visits 
.keyBy("region") 
.timeWindow(Time.hours(1)) 
.Sum("visits") 


如 果 知 道 输入 数据 是 有 限 的 ， 则 可 以 通过 以 下 代码 实现 批 处 理 。 





val counts = visits 
.keyBy("region") 
.window(GlobalWindows .create) 
.trigger(EndofTimeTrigger.create) 
.Sum("visits") 





Flink 的 不 寻常 之 处 在 于 ， 它 既 可 以 将 数据 当 作 无 限 流 来 处 理 ， 也 可 以 将 
它 当 作 有 限 流 来 处 理 。Flink 的 DataSet API 就 是 专 为 批 处 理 而 生 的 ， 如 下 
所 示 。 





























val counts = 
.groupBy(" 
.Sum("visi 


如 果 输 入 数据 是 有 限 的 ， 那 么 以 上 代码 的 运行 结果 将 与 前 


visits 
region") 
ts") 





但 是 它 对 于 习惯 使 用 批 处 理 器 


批 处 理 技术 


6.1 




































































的 程序 员 来 说 更 友好 。 












































一 段 代 码 的 相同 ， 































































































从 原则 上 说 ， 批 处 理 是 一 种 特殊 的 流 处 理 : 当 输入 数据 是 有 限 的 ， 并 且 只 

需要 得 到 最 终结 果 时 ， 对 所 有 数据 定义 一 个 全 局 窗口 并 在 窗口 里 进行 计算 
即 可 。 但 是 ， 这 样 做 的 效率 如 何 呢 ? 

传统 上 ， 有 限 数据 流 由 专用 的 批 处 理 器 处 理 ， 某 些 时 候 ， 它 比 流 处 理 器 更 
高 效 。 但 是 ， 在 流 处 理 器 中 整合 高 效 、 大 规模 的 批 处 理 所 需 的 大 部 分 优化 
方案 ， 是 可 行 的 做 法 。 这 正 是 Flink 所 做 的 工作 ， 而 且 这 样 做 的 效率 很 高 。 
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水 印 、 窗 口 和 触发 器 








用 于 调度 和 恢复 的 
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图 6-3: Flink 通 


同样 的 后 端 ( 流 处 更 


一 个 底层 引擎 同时 支持 流 处 理 和 批 处 理 




















擎 之 上 ，Flink 有 以 下 机 制 |: 


引擎 ) 被 用 来 处 理 有 限 数据 和 无 限 数 据 。 


在 流 处 理 引 





批 处 理 : 


一 种 特殊 的 流 处 理 | 75 





。 检查 点 机 制 和 状态 机 制 : 用 于 实现 容错 、 有 状态 的 处 理 ， 
。 水 印 机 制 : 用 于 实现 事件 时 钟 ， 
。 窗口 和 触发 器 : 用 于 限制 计算 范围 ， 并 定义 呈现 结果 的 时 间 。 






































在 同一 个 流 处 理 引 擎 之 上 ，Flink 还 存在 为 一 套 机 制 ， 用 于 实现 高 效 的 批 处 
里 。 尺 管 本 书 并 不 打算 详细 讨论 这 些 机 制 ， 但 是 仍 要 指出 以 下 重点 : 




























































































。 用 于 调度 和 恢复 的 回 斋 法 : 由 Microsoft Dryad 引入 ， 现 在 几乎 用 于 所 有 
批 处 理 器 ; 

。 用 于 散 列 和 排序 的 特殊 内 存 数 据 结构 : 可 以 在 需要 时 ， 将 一 部 分 数据 从 
内 存 洪 出 到 硬盘 上 ， 

。 优化 器 ， 尽 可 能 地 缩短 生成 结果 的 时 间 。 






































在 写作 本 书 时 ， 以 上 两 套 机 制 分 别 对 应 各 自 的 API (DataStream API 和 
DataSet API) ;在 创建 Flink 作业 时 ， 并 不 能 通过 将 两 者 混合 在 一 起 来 同时 
利用 Flink 的 所 有 功能 。 然 而 ， 这 并 不 是 问题 。 实 际 上 ，Flink 社区 已 经 在 
研究 如 何 统一 这 两 个 API。Apache Beam 社区 已 经 创建 出 了 同时 适用 于 流 处 
理 和 批 处 理 的 API， 它 可 以 生成 用 于 执行 的 Flink 程序 。 


6.2 ”案例 研究 : Flink 作 为 批 处 理 器 


在 2015 年 的 Flink Forward 研讨 会 上 ，Dongwon Kim 展示 了 他 所 做 的 性 
测试 。 他 对 MapReduce、Tez、Spark 和 Flink 在 执行 纯 批 处 理 任 务 时 的 性 外 
做 了 比较 。 测 试 的 批 处 理 任 务 是 TeraSort 和 分 布 式 散 列 连接 。 



























































第 一 个 任务 是 TeraSort， 即 测量 为 1TB 数据 排序 所 用 的 时 间 。 就 上 述 系统 
而 言 ，TeraSort 本 质 上 是 分 布 式 排序 问题 ， 如 图 6-4 所 示 。 它 由 以 下 几 个 阶 
段 组 成 : 











(1) 读 取 阶 段 ， 从 HDFS 文件 中 读 取 数据 分 区 ; 
(2) 本 地 排序 阶段 :对 上 述 分 区 进行 部 分 排序 ， 
(3) 混 洗 阶段 :将 数据 按照 key 重新 分 布 到 处 理 节点 上 ， 
(4) 终 排序 阶段 :生成 排序 输出 ，; 
(5) 写 入 阶段 : 将 排序 后 的 分 区 写 入 HDFS 文件 。 






































注 1: 他 当时 是 韩国 浦 项 科技 大 学 的 博士 后 研究 员 。 
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典型 的 分 布 式 排序 阶段 


读 取 本 地 排序 。 混 洗 终 排 序 写 入 
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图 6-4: 分 布 式 排序 的 处 理 阶段 





Hadoop 发 行 版 包含 对 TeraSort 的 实现 ， 同 样 的 实现 也 可 以 用 于 Tez， 因 为 
Tez 可 以 执行 通过 API 编写 的 程序 。Spark 和 Elink 的 TeraSort 
实现 由 Dongwon Kim 提供 “。 用 来 测量 的 集群 由 42 台 机 器 组 成 ， 每 台 机 器 

包含 12 个 CPU 内 核 、24GB 内 存 ， 以 及 6 块 硬盘 。 












































图 6-5 展示 了 测试 结果 。 结 果 显 示 ，Flink 的 排序 时 间 比 其 他 所 有 系统 都 少 。 
MapReduce 用 了 2157 秒 ，Tez 用 了 1887 秒 ，Spark 用 了 2171 秒 ，Flink 则 
只 用 了 1480 秒 。 
































2500 
2157 a1 
2000 1887 
1480 
会 1500 
厄 
所 1000 
500 
0 
MapReduce Tez 0.7.0 Spark 1.5.1 Flink 0.9.1 
in Hadoop 2.7.1 
图 6-5: MapReduce、Tez、Spark 和 Flink 分 别 对 应 的 TeraSort 结果 





注 2: https://github.com/eastcirclek/terasort 
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第 二 个 任务 是 一 个 大 数据 集 (240GB) 和 一 个 小 数据 集 (256MB) 之 间 的 
分 布 式 散 列 连接 。 结 果 显示 ，Flink 仍然 是 速度 最 快 的 系统 ， 它 所 用 的 时 间 
分 别 是 Tez 和 Spark 的 1/2 和 1/4， 如 图 6-6 所 示 。 
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图 6-6: Tez、Spark 和 Flink 分 别 对 应 的 散 列 连 接 结果 


产生 以 上 结果 的 总 体 原因 是 ，Flink 的 执行 过 程 是 基于 流 的 ， 这 意味 着 各 个 
处 理 阶段 有 更 多 的 重生 ， 并 且 混 洗 操作 是 流水 线 式 的 ， 因 此 磁盘 访问 操作 
更 少 。 相 反 ，MapReduce、Tez 和 Spark 是 基于 批 的 ， 这 意味 着 数据 在 通过 
网 络 传输 之 前 必须 先 被 写 人 磁盘。 该 测试 说 明 ， 在 使 用 Flink 时 ， 系 统 空闲 
时 间 和 磁盘 访问 操作 更 少 。 








ey 


直 得 一 提 的 是 ， 性 能 测试 结果 中 的 原始 数值 可 能 会 因 集 群 设置 、 配 置 和 软 
件 版 本 而 异 。 如 果 现 在 再 测试 一 遍 ， 那 么 得 到 的 数值 的 确 可 能 不 一 样 (上 
述 测试 用 到 的 软件 版 本 分 别 是 : Hadoop 2.7.1、Tez 0.7.0、Spark 1.5.1， 以 及 
Flink 0.9.1， 这 些 系统 在 如 今 都 有 了 更 新 的 版 本 )。 本 节 的 重点 是 ， 即 使 是 
批 处 理 器 所 擅长 的 任务 ， 流 处 理 器 (Flink) 在 经 过 适当 的 优化 后 也 仍然 可 
以 表现 得 和 批 处 理 器 (MapReduce、Tez 和 Spark) 一 样 好 ， 甚 至 更 好 。 
此 ，Flink 可 以 用 同一 个 数据 处 理 框架 来 处 理 无 限 数 据 流 和 有 限 数据 流 ， 并 
且 不 会 牺 竹 性 能 。 






















































































附录 


其 他 资源 





进一步 使 用 Flink 


我 们 希望 你 已 经 跃跃欲试 ， 并 且 准 备 好 使 用 Flink 了 。 从 哪里 开始 呢 ? 答案 
是 Flink 的 网 站 : https:/flink.apache.org。 该 网 站 有 “快速 入 门 ”指南 ， 通 
过 例子 教 你 如 何 使 用 Flink 摄取 和 分 析 维 基 百 科 的 编辑 日 志 。 只 需 花 几 分 
钟 ， 你 就 可 以 开始 编写 你 的 第 一 个 流 处 理 程序 了 。 


如 果 你 偏爱 视觉 效果 ， 可 以 看 看 MapR 公司 提供 的 例子 : 如何 用 Flink 摄取 
纽约 市 出 租车 路 线 的 数据 流 ， 并 用 Kibana 将 它 可 视 化 ， 详 见 The Essential 
Guide to Streaming-first Processing with Apache Flink (https://www.mapr.com/ 




















dad 











blog/essential-guide-streaming-first-processing-apache-flink ) 。 

















若 想 进行 更 深入 的 学 习 ， 可 以 访问 data Artisans 免费 提供 的 培训 资源 : http:// 
training.data-artisans.com。 其 上 的 所 有 幻灯 片 、 练 习 和 解决 方案 都 是 开源 的 。 


关于 时 间 和 窗口 的 更 多 内 容 

本 书 用 很 大 的 篇 幅 讨 论 了 时 间 和 窗口 的 多 个 方面 ， 并 解释 了 Flink 的 工作 
原理 以 及 在 使 用 时 可 以 做 的 选择 。 这 些 主题 也 是 一 系列 博客 文章 所 讨论 的 
内 容 。 如 果 你 想 更 深入 地 了 解 Flink 窗口 的 工作 原理 ， 可 以 参考 http://flink. 
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apache.org/news/2015/12/04/Introducing-windows.html; 若 想 了 解 关于 会 话 窗 
口 的 更 多 细节 ， 可 以 参考 http://data-artisans.com/blog/session-windowing-in- 
flink/; 若 想 进一步 了 解 Flink 窗口 和 水 印 机 制 ， 以 及 事件 时 间 适 用 于 哪些 
应 用 程序 ， 请 参考 http://data-artisans.com/blog/how-apache-flink-enables-new- 


streaming-applications-part-1。 


关于 状态 和 检查 点 的 更 多 内 容 


若 想 深入 了 解 Flink 的 检查 点 机 制 ， 以 及 它 如 何 实 现 容 错 性 流 处 理 ， 请 参 
考 http://data-artisans.com/blog/high-throughput-low-latency-and-exactly-once- 








stream-processing-with-apache-flink。 


若 想 了 解 关 于 保存 点 的 更 多 信息 ， 请 观看 这 个 短视 频 : https://mapr.com/ 
blog/savepoints-apache-flink-stream-processing-whiteboard-walkthrough/。 在 该 
视频 中 ，data Artisans 的 首席 技术 官 Stephan Ewen 解释 了 如 何 用 保存 点 重播 
流 数据 。 在 重新 处 理 数 据 、 修 复 bug 和 进行 更 新 时 ,保存 点 很 有 用 。 





更 多 关于 保存 点 的 内 容 ， 请 参考 http://data-artisans.com/blog/how-apache- 


flink-enables-new-streaming-applications/。 


若 想 了 解 基于 Yahoo! Streaming Benchmark 所 做 的 拓展 ， 请 访问 https://data- 


artisans.com/blog/extending-the-yahoo-streaming-benchmark/。 


用 Flink 进 行 批 处 理 


若 想 了 解 流 处 理 器 如 何 进行 批 处 理 ， 请 访问 http://data-artisans.com/blog/batch- 


is-a-special-case-of-streaming。 




















Flink 博客 上 也 有 许多 信息 。 若 想 深 入 了 解 Flink 为 了 优化 批 处 理 而 使 用 的 
具体 机 制 ， 请 访问 以 下 网 址 。 


。 http://flink.apache.org/news/2015/05/11/Juggling-with-Bits-and-Bytes.html 

。 http://flink.apache.org/news/2015/03/13/peeking-into-Apache-Flinks-Engine- 
Room.html 

。 http://data-artisans.com/blog/computing-recommendations-at-extreme-scale- 


with-apache-flink/ 
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Flink 用 例 和 用 户 故 事 
经 常 使 用 Flink 的 公司 会 发 表 一 些 文章 ， 并 在 其 中 描述 收获 和 用 法 。 以 下 是 
一 些 推荐 的 用 户 故 事 。 











。 https://techblog.king.com/rbea-scalable-real-time-analytics-king/ 

。 https://tech.zalando.de/blog/apache-showdown-flink-vs.-spark/ 

。 http://data-artisans.com/blog/flink-at-bouygues-html/ 

。 http://data-artisans.com/blog/how-we-selected-apache-flink-at-otto-group/ 


人 们 每 年 在 Flink Forward ee 片 ， 都 是 了 解 各 个 公 
司 如 何 使 用 Flink 的 绝 佳 资源 ， 详 见 Flink Forward 的 网 站 。 


流 处 理 架 构 


若 想 深入 了 解 流 处 理 架 构 ， 以 及 Kafka 和 MapR Streams 所 用 的 消息 传输 技 
术 ， 推荐 阅读 Ted Dunning 和 Ellen Friedman 合 著 的 书 Streaming Architecture。 


以 下 两 个 短视 频 解 释 了 流 处 理 架 构 在 支持 微服 务 方面 的 优势 。 


























。 https://www.mapr.com/blog/key-requirements-streaming-platforms-micro- 
services-advantage-whiteboard-walkthrough-part-1 
。 https://www.mapr.com/blog/streaming-data-how-move-state-flow-whiteboard- 


walkthrough-part-2 


消息 传输 : Kafka 


若 想 尝试 使 用 Kafka， 可 以 在 MapR 公司 网 站 上 的 这 篇 博客 文章 里 找到 示例 程 
序 : https://www.mapr.com/blog/getting-started-sample-programs-apache-kafka-09。 








此 外 ， 推 荐 阅读 由 Neha Narkhede、Gwen Shapira 和 Todd Palino 合 著 的 书 
《Kafka 权威 指南 》 '。 





注 1: 详 见 http:/www.ituring.com.cn/book/2067。 一 一 编者 注 
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消息 传输 : MapR Streams 
MapR Streams 是 MapR 融合 数据 平台 的 一 个 主要 部 分 。 要 了 解 关 于 它 的 更 
多 内 容 ， 请 参考 下 列 资 源 。 


。 MapR Streams 的 功能 概览 , 包括 流 层面 上 的 管理 和 跨 地 域 的 流 复 制 能 力 : 
https://www.mapr.com/products/mapr-streams。 

。 MapR Streams 的 示例 程序 (用 Kafka API) : https:/www.mapr.com/blog/ 
getting-started-sample-programs-mapr-streams。 

。 大 致 比较 Kafka 和 MapR Streams: https://mapr.com/blog/apache-kafka-and- 


mapr-streams-terms-techniques-and-new-designs。 
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Ted Dunning 和 Ellen Friedman 的 部 分 著作 


。 Streaming Architecture: New Desie1s Using Apache Kafka and MapR Streams 
。 Sharing Big Data Safely: Managing Data Security 

。 Real-World Hadoop 

。 Time Series Databases: New Ways to Store and Access Data 

。 Practical Machine Learning: A New Look at Anomaly Detection 


。 Practical Machine Learning: Innovations in Recommendation 
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